Kalbos korpusas, taip pat žinomas kaip sakytinis korpusas, yra kalbų rinkinys, išsaugotas garso ar teksto formatu. Šios kolekcijos naudingos kuriant kalbos programinę įrangą ir atliekant kalbinius tyrimus. Dvi kalbos korpuso atmainos yra spontaniška kalba ir skaityta kalba.
Svarbu apibrėžti, ką reiškia žodžiai „kalba“ ir „korpusas“. Kalbą sudaro minčių ir faktų rinkiniai, dažniausiai kalbama. Bet kurį ištartą pasisakymą taip pat galima laikyti kalba. Korpusas, savo ruožtu, nurodo formalų įvairios informacijos rinkinį.
Vartotojai paprastai kuria kalbos korpusą naudodami garso įrašus arba teksto transkripcijas. Įrašai gali būti daromi naudojant garso saugojimo technologijas ir saugomi – dažnai kaip MP3 failai elektroninėse duomenų bazėse – siekiant sukurti korpusą. Kita vertus, transkribuotojas paverčia sakytinę kalbą į rašytinę formą, kuri vėliau sukompiliuojama su kitomis transkripcijomis.
Kalbos korpuse galima rasti bet kokio tipo kalbą, tačiau tokios duomenų bazės paprastai skirstomos į dvi kategorijas. Pirmojoje, spontaniškoje kalboje, yra neformalių kalbų, kurias gali pasakyti asmuo, pavyzdžiui, pokalbiuose ar pasakojime žodžiu. Tačiau skaitytų kalbų struktūra yra labiau formalizuota ir iš anksto suplanuota. Pavyzdžiai gali būti politinės kalbos, naujienų laidos ir garsinių knygų skaitymai. Kai kurios veislės gali priklausyti nuo konkretaus konteksto, pavyzdžiui, interviu.
Vienas iš pagrindinių kalbos korpuso įrankių pranašumų yra jų praktinis naudingumas kuriant kalbos programinę įrangą. Pavyzdžiui, daugelis kompiuterių ir kitų elektroninių prietaisų siūlo kalbos atpažinimo funkcijas, tokias kaip įvesto teksto skaitymas, ištartų žodžių pavertimas tekstu arba kalbėtojo atpažinimas pagal unikalius balso bruožus. Kalbos korpuso ištraukos gali padėti patobulinti šią technologiją kiekvienam atskiram garsui taikant matematiškai pagrįstus statistikos rinkinius, vadinamus akustiniais modeliais. Be to, duomenų bazės gali padėti kurti kalbos mokymosi garso juostas.
Šios funkcijos susietos su kita kalbos korpuso programa. Būtent, mokslininkai gali paimti šiuos išsaugotus garso ar rašytinius failus ir ištirti subtilius gramatinius variantus, kurie apima kalbą. Todėl kalbos korpusas gali būti vertinga priemonė mokantis apie tarimą, žodžių tvarką ir kitus kalbinius modelius. Tyrėjai gali toliau palyginti įvairių regioninių dialektų ir kalbų panašumus ir skirtumus, jei sukuria kelių kalbų rinkinį arba daugiakalbį korpusą. Korpusų, apimančių kalbą, vertinimas yra specializuota tyrimų koncentracija, žinoma kaip korpuso lingvistika, o jos kompiuterizuotas įgyvendinimas vadinamas kompiuterine lingvistika.
Daugelyje nuorašų duomenų bazių yra užrašų arba žymų, kuriose yra informacijos apie atskirus teksto komponentus. Šis procesas vadinamas anotacija. Abstrakcijos procese kalbininkai kalboje dokumentuos ir išvers įvairius terminus. Toks įvestis gali būti naudingas, jei asmuo nori sužinoti apie nežinomas civilizacijas per tekstus. Paskutinis korpuso tyrimo žingsnis apima analizę arba palyginimų ir teorinių idealų išvedimą iš kalbos komponentų rinkinio.