Kas yra teksto korpusas?

Teksto korpusas – tai sakytų ar rašytinių tekstų rinkinys, kuriuo remiantis atliekami korpuso lingvistikos tyrimai. Saugodami šiuos didelius tekstų bankus, mokslininkai gali analizuoti įvairius bet kurios kalbos aspektus. Teksto korpusas yra veiksmingas būdas atlikti tyrimus, nes surinkus medžiagą galima tirti įvairius su kalba susijusius klausimus, įskaitant morfologiją, sintaksę, žodyną ir pragmatiką. Skirtingai nuo senesnių kalbinių tyrimų metodų, teksto korpusas leidžia tyrėjams pažvelgti į kalbą pagal tai, kaip ji iš tikrųjų vartojama kontekste, o ne kaip ji galėtų būti naudojama hipotetiškai. Kalbininkai paprastai turi prieigą prie daug didesnių duomenų pavyzdžių nei tada, kai jie turėjo apsiriboti duomenimis, kuriuos jie galėtų surinkti per ribotą laikotarpį, turėdami ribotus finansinius išteklius.

Korpusai paprastai saugomi kompiuteryje, todėl tyrimams palengvinti galima sukurti kompiuterių programinės įrangos programas. Vienas įprastas teksto korpuso naudojimo būdas yra suskaičiuoti bendrą žodžių skaičių tekstuose, tada suskaičiuoti ir reitinguoti, kiek kartų tam tikri žodžiai pasirodė. Santykis, kuris sukuriamas tarp bendro žodžių skaičiaus ir konkrečių žodžių, yra žinomas kaip Zipf įstatymas. Šis santykis padeda paaiškinti žodžių dažnumą kalboje. Zipf dėsnio supratimas padeda kompiuterių programuotojams sukurti kompiuterių programinę įrangą, atitinkančią tam tikros kalbos poreikius. Jie gali suskaičiuoti ir numatyti, kaip dažnai tam tikri žodžiai ir frazės bus naudojami kaip įvestis.

Kitas būdas naudoti teksto korpusą – pažymėti jame konkrečius elementus, kuriuos tyrėjas nori ištirti. Pavyzdys, kaip tai būtų naudojama, yra suskaičiuoti, kiek kartų pasyvus balsas pasirodo skirtinguose teksto žanruose. Žymėjimas taip pat buvo naudingas kuriant kompiuterines programas, kurios padeda žmonėms kasdieniame gyvenime. Dalies kalbos žymėjimas buvo labai svarbus kuriant balso atpažinimo programinę įrangą. Pavyzdžiui, anglų kalboje tas pats žodis gali turėti daugiau nei vieną kalbos dalį. Daugialypiai žodžiai dažnai kirčiuojami skirtingai, kad parodytų, kuri kalbos dalis vartojama. Daiktavardis „objektas“ kirčiuoja pirmąjį skiemenį, o veiksmažodis „objektas“ – antrajame skiemenyje. Daiktavardžio formos „objektas“ žymėjimas padeda kompiuterio programai teisingai jį garsiai perskaityti ir atpažinti, kai žmogus sako „objektas“.

Teksto korpusai naudingi tiek žmonių kalbotyrai, tiek kompiuterinei lingvistikai. Jie leidžia atlikti tyrimus, padedančius žmonėms geriau suprasti žmonių vartojamą kalbą, o tai savo ruožtu padeda tobulinti kompiuterių vartojamą kalbą. Balso atpažinimo technologijose buvo padaryti dideli šuoliai, leidžiantys vartotojams žodžiu valdyti kompiuterius biuruose, namuose ir transporto priemonėse. Nuolatinė pažanga leis žmonėms bendrauti su kompiuteriais taip pat natūraliai, kaip ir tarpusavyje.