Balso atpažinimas arba kalbos atpažinimas yra kompiuterinė technologija, kuri naudoja garso įvestį duomenims įvesti, o ne klaviatūrą. Pavyzdžiui, kalbant į mikrofoną gaunamas toks pat rezultatas, kaip rankiniu būdu klaviatūra įvedus žodžius. Paprasčiau tariant, balso atpažinimo programinė įranga sukurta su vidine atpažįstamų žodžių ar frazių duomenų baze. Programa suderina kalbos garso parašą su atitinkamais įrašais duomenų bazėje.
Nors kalbos pavertimas tekstu gali atrodyti lengvas, tai labai sudėtinga užduotis. Problema slypi praktiškai begalinėje atskirų kalbos modelių ir akcentų įvairovėje, kurią apsunkina natūralus žmogaus polinkis leisti žodžius kartu.
Įvairūs kalbos atpažinimo programinės įrangos modeliai naudojami įvairioms programoms – nuo asmeninio diktavimo iki komercinio automatinio skambučių nukreipimo, nuo pagalbos neįgaliesiems iki sporto ir naujienų įvykių subtitravimo. Kiekvienas modelis elgiasi skirtingai ir turi savo galimybes bei ribas.
Balso atpažinimo programos, kurios reikalauja, kad vartotojas „apmokytų“ programinę įrangą atpažinti konkrečius stilizuotus kalbos modelius, vadinamos nuo garsiakalbio priklausančiomis sistemomis. Asmenys dažniausiai naudoja tokio tipo programas namuose arba biure. El. paštą, pastabas, laiškus, duomenis ir tekstą galima įvesti kalbant į mikrofoną.
Kai kurios balso atpažinimo sistemos, vadinamos diskrečiosiomis kalbos sistemomis, reikalauja, kad vartotojas kalbėtų aiškiai ir lėtai bei atskirtų žodžius. Nepertraukiamos kalbos sistemos sukurtos taip, kad suprastų natūralesnį kalbėjimo būdą.
Diskrečios kalbos sistemos yra plačiai naudojamos klientų aptarnavimo maršrutams nustatyti. Sistema nepriklauso nuo garsiakalbių, tačiau supranta tik nedidelį žodžių ar frazių rinkinį. Skambinančiajam suteikiama galimybė atsakyti į klausimą, dažniausiai „taip“ arba „ne“. Gavusi atsakymą, sistema perkelia skambinantįjį į kitą lygį. Jei skambinantysis atsako unikaliu atsakymu, automatinis atsakymas paprastai būna toks: „Atsiprašau, aš jūsų nesupratau; bandykite dar kartą“, – pakartokite klausimą ir galimus atsakymus. Šis balso atpažinimo tipas taip pat vadinamas gramatikos apribotu atpažinimu.
Nepertraukiama kalba yra sudėtingesnė balso atpažinimo programinės įrangos forma, kai skambinantysis gali kalbėti natūraliai, kad paaiškintų problemą arba paprašytų paslaugos. Ši programa skirta pasirinkti pagrindinius žodžius ar frazes ir statistiškai geriausiai spėti, ko klientas nori. Kalbėjimas aiškiai padeda programai nustatyti poreikį. Šio tipo sistemos turi daug intensyvesnę duomenų bazę nei diskretiškos kalbos sistemos ir taip pat vadinamos natūralios kalbos atpažinimu.
Automatinis kalbos atpažinimas (ASR) yra balso atpažinimo modelis, skirtas diktuoti. Ši programinė įranga skiriasi nuo ankstesnių modelių tuo, kad ji nesistengia suprasti, kas sakoma, tik atpažinti ištartus žodžius. Kadangi daugelis žodžių anglų kalba skamba panašiai, klaidų yra lengva padaryti. ASR programinė įranga dažnai randama skaitmeniniuose diktofonuose.