Kas yra leksinis tankis?

Leksinis tankis reiškia leksinių ir funkcinių žodžių santykį bet kuriame tekste ar tekstų rinkiniuose. Tai kompiuterinės lingvistikos ir lingvistinės analizės šaka. Jis susietas su žodynu, žinomais bet kurio asmens žodžiais ir gali būti naudojamas lyginant bet kurio asmens šnekamąją ir rašytinę leksiką. Žodynas skiriasi nuo bendro žodyno, nes jame nėra funkcinių žodžių, tokių kaip įvardžiai ir dalelės.

Kalbos ar teksto tankis apskaičiuojamas lyginant leksinių žodžių skaičių ir funkcinių žodžių skaičių. Trumpus sakinius ir mažus tekstus galima apskaičiuoti naudojant protinę aritmetiką arba paprastą skaičiavimą. Didesni palyginimai, tarkime, Charlesas Dickensas ar Williamas Shakespeare’as, atliekami įvedant informaciją į kompiuterinę programą. Programa persijoja tekstą į funkcinius ir leksinius žodžius.

Subalansuotas leksinis tankis yra maždaug 50 proc. Tai reiškia, kad pusę kiekvieno sakinio sudaro leksiniai žodžiai ir pusę funkcinių žodžių. Mažo tankio teksto santykis bus mažesnis nei 50:50, o didelio tankio teksto santykis bus didesnis nei 50:50. Akademiniai tekstai ir vyriausybės, žargonu užpildyti dokumentai dažniausiai sukuria didžiausią tankį.

Vienas leksinio tankio skaičiavimo trūkumas yra tas, kad neatsižvelgiama į skirtingas žodžių sudėties formas ir atvejus. Statistinės analizės tikslas – tirti tik žodžių tipų santykį. Tai neatlieka vieno asmens leksinių žinių tyrimo. Jei taip būtų, leksinio tankio analizė atskirtų tokias formas kaip „duoti“ ir „davė“. Teoriškai leksinis tankis gali būti taikomas tekstams, siekiant ištirti tam tikrų leksinių vienetų dažnumą.

Asmens rašytinę leksiką gali padėti naudoti žodynai ir tezaurai. Tokios priemonės pateikia alternatyvius žodžius ir paaiškina reikšmes. Kalbėdamas žmogus turi pasikliauti tik savo protiniu žodynu. Tai reiškia, kad leksinis tankis gali būti naudojamas kaip sakytinės ir rašytinės leksikos palyginimo įrankis. Šnekamų kalbų leksinis tankis yra mažesnis nei rašytinio teksto.

Kompiuterinė lingvistika yra statistinio modeliavimo lingvistinės analizės sritis. Jis gimė iš Šaltojo karo ir Amerikos noro naudoti kompiuterius versti tekstus iš rusų į anglų kalbą. Tam reikėjo panaudoti matematiką, statistiką, dirbtinį intelektą ir kompiuterių programavimą. Didžiausia programuotojų problema buvo priversti kompiuterį suprasti sudėtingą gramatiką ir kalbos pragmatiką. Tai paskatino Kinijos kambario teoriją, kad kompiuteriai gali atlikti pažodinį žodžių vertimą, bet galiausiai negali suprasti kalbų.