Kas yra akustinis modelis?

Akustinis modelis iš esmės yra balso žemėlapis, susijęs su spausdintų žodžių serija. Ši technologija naudojama kalbos atpažinimo programose, siekiant padėti kompiuteriui išmokti atpažinti žmogaus kalbos modelius. Akustinis modelis yra vienas iš dviejų pagrindinių failų, reikalingų kalbos atpažinimo programai paleisti; kitas yra kalbos modelis, nurodantis tikėtinus žodžius ir kalbos modelius, kuriuos kalbėtojas gali vartoti. Šie modeliai sukuriami lyginant ištarto garso failo garso detales su ištartų žodžių tekstu.

Kalbos atpažinimo programinė įranga yra programinė įranga, skirta atpažinti ir perrašyti arba reaguoti į žmogaus pasakytus žodžius. Daugelis operacinių sistemų yra sukurtos su integruotomis pagrindinėmis kalbos atpažinimo galimybėmis, kurias vartotojas gali įjungti ir išjungti. Kalbos atpažinimo galimybės operacinėse sistemose paprastai suteikia vartotojui galimybę valdyti kompiuterį ir balsu įvesti žodžius ekrane.

Kad pasiektų kalbos atpažinimo programinę įrangą, vartotojui reikia mikrofono, kad jo balsas pasiektų kompiuterį, ir programą, kuri apdoroja garsą. Nors daugelis kompiuterių turi integruotus mikrofonus, išorinis ausinių mikrofonas leidžia vartotojui mėgautis aiškesniu balso garsu ir laisvai judėti kambaryje kalbėdamas. Atskiros kalbos atpažinimo programinės įrangos prekės ženklai apima LumenVox®, Loquendo® ir Dragon®.

Dauguma kalbos atpažinimo programų turi akustinio modelio programavimą, leidžiantį programai atpažinti tarimo pokyčius. Jie naudoja kalbėtojo balso modelius, kad atpažintų žodžius kalboje. Daugelyje jų sukurta sąrankos programinė įranga, skirta padėti vartotojui sukurti akustinį modelį, skirtą interpretuoti savo balsą. Kai kurios pažangios kalbos atpažinimo programos gali atpažinti ir interpretuoti kelias kalbas, dažnai su nedideliu garso informacijos kiekiu. Kuo pažangesnė kalbos atpažinimo programa, tuo didesnė tikimybė, kad ji tiksliai interpretuos žodžius pagal kontekstą, įskaitant žodžio vietą sakinyje.

Studijų sritis, kurianti kalbos atpažinimo technologiją, vadinama kompiuterine lingvistika. Kompiuterinė lingvistika apima studijas ir projektavimą, kuriančią programinę įrangą, užprogramuotą suprasti žmogaus kalbą. Į šią sritį dažnai įtraukiama psichologijos studijų informacija, siekiant sukurti akustinius modelius, kurie gali tiksliau interpretuoti kalbą.

Žodis „akustinis“ paprastai reiškia viską, kas susiję su garsu. Nors akustiniai modeliai dažniausiai naudojami kalbai atpažinti, jie taip pat gali būti naudojami muzikoje. Akustinis muzikos takelio modelis gali nustatyti tokias savybes kaip dūžiai per minutę, muzikiniai klavišai arba dominuojantys muzikos tonai. Šią informaciją gali naudoti kompiuterinė programa, kad nustatytų muzikos takelį, arba ji gali būti naudojama laisvai nustatyti žanrą, pagal kurį muzika greičiausiai skirstoma į kategorijas. Akustiniai modeliai taip pat naudojami studijų srityje, vadinamoje psichoakustika, kurioje mokslininkai tikisi išmokti struktūrizuoti muziką, kuri nuspėjamai veikia smegenis.