Kas yra dažnių sąrašas?

Dažnių sąrašas yra kiekybinės lingvistinės analizės įrankis, sąrašas visko, kas rodoma pasirinktame teksto bloke ir kaip dažnai tai vyksta. Lingvistinė analizė yra tarpdisciplininė sritis, tirianti kalbos struktūrą ir jos vartojimą. Sujungiant antropologijos, matematikos, informatikos ir logikos elementus, kalbinė analizė naudojama tokiems projektams kaip mechaninis vertimas, kriptografija ir senovės raštų iššifravimas.

Dažnių sąrašai gali būti žodžių arba raidžių sąrašai. Raidžių dažniai paprastai naudojami kriptografijoje. Vienas iš paprasčiausių kodų yra pakaitinis šifras, kai kiekviena raidė pakeičiama kita raide ar simboliu. Pavyzdžiui, pranešimas „ataka auštant“ gali būti užkoduotas kaip „zoozhl zo azqp“. Pakaitinių šifrų pranašumas yra tas, kad jiems nereikia kodų knygos, tačiau trūkumas yra tas, kad juos galima nulaužti palyginus laiške esančių raidžių ir raidžių derinių dažnį su įprasto naudojimo dažnių sąrašu.

Arthuro Conano Doyle’o filme „Šokančių vyrų nuotykis“ išgalvotas detektyvas Šerlokas Holmsas naudoja dažnio analizę, kad išlaužtų pakaitinį šifrą. Istoriškai kodų kūrėjai išbandydavo įvairias gudrybes, kad savo šifrus būtų sunkiau nulaužti naudojant dažnių sąrašą: šifruodavo šifrus, kurių pakeitimas priklausydavo nuo raidės padėties pranešime, pašalindavo arba užkoduodavo tarpus, kad nebūtų galima naudoti žodžių dažnių, laikydavo pranešimus. trumpi ir vengiant tikėtinų žodžių, kad kodų laužytojams neužtektų imties, kurią galėtų naudoti dažnio analizei. Galų gale, bet kurį šifrą galima sugadinti naudojant pakankamai didelį pavyzdį, todėl sudėtingesni šifravimo protokolai tapo standartu.

Žodžių ir žodžių tipų dažnių sąrašai naudojami ir senovės kalbos studijose. Kai Jean-Francois Champollion išvertė Rosetta akmenį 1820-aisiais, jo procese buvo naudojamas dažnių ir transliteracijų palyginimas, kad būtų galima sujungti hieroglifų kalbą. Tyrimai parodė, kad senųjų kalbų, kaip ir šiuolaikinės anglų kalbos, pagrindinis 1,500–2,000 žodžių žodynas apima 85–90 procentų įprastų tekstų, o tai leidžia skaitytojui išplėsti savo žodyną iš konteksto.

Zipfo dėsnis, pavadintas Harvardo kalbotyros profesoriaus George’o Kingsley Zipfo vardu, yra empirinis dažnio reitingų elgesio stebėjimas. Jame teigiama, kad įvykio dažnis yra atvirkščiai proporcingas įvykio reitingui. Įvykis paprastai yra žodis arba raidė kalbinių dažnių sąraše, tačiau Zipf įstatymas buvo apibendrintas, kad apimtų kitus reiškinius, pvz., miesto gyventojų skaičių ir įmonių pajamas.

Dažnių sąrašas yra svarbi projektų priemonė, padedanti kompiuteriams suprasti šnekamąją ir rašytinę kalbą. Vienas iš pavyzdžių yra mechaninis vertimas – kompiuterių naudojimas verčiant dokumentus iš vienos kalbos į kitą. Kitas pavyzdys yra Watson, natūralios kalbos superkompiuteris, kuris buvo parodytas kaip televizijos žaidimų laidos „Jeopardy“ dalyvis! 2011 m. vasario mėn. Žodžių ir vartosenos tipų dažniai yra įtraukti į jų programavimą kaip prasmės radimo įrankis.