Kalbos atpažinimo programinė įranga labai pažengė į priekį nuo tada, kai buvo išrasta, tačiau ji vis dar turi keletą didelių problemų, dėl kurių jos negalima naudoti tik kaip transkripcijos metodą. Kai kurios kalbos atpažinimo problemos, kurias sunku išspręsti, apima žodžių tarimo pokyčius, atskirus kirčius, homonimus ir nepageidaujamus aplinkos triukšmus. Kitas kalbos atpažinimo problemų rinkinys apima aparatūros tipą, naudojamą iš tikrųjų įvesti garsą, nes rezultatai gali turėti didelės įtakos tam, kaip programinė įranga interpretuos kalbą. Taip pat yra problema, kai nežinia ištariamų žodžių konteksto, todėl tekstas gali būti be skyrybos ar netikslios rašybos.
Viena iš pagrindinių kalbos atpažinimo problemų yra naudojamų įvesties įrenginių kokybė. Jei mikrofonas nėra pakankamai jautrus arba yra pernelyg jautrus, jis gali sukurti garso informaciją, kurią programinei įrangai sunku iššifruoti. Tai ypač aktualu, kai mikrofonas yra toks jautrus, kad kalba yra iškraipyta, todėl atpažinimo programinė įranga tampa beveik nenaudinga. Panaši problema kyla dėl foninio triukšmo, kurį gali būti sunku atskirti nuo pagrindinės kalbos ir gali būti netikslūs vertimai, kai jis įtraukiamas į kalbos apdorojimą.
Tarimo, kirčių ir kalbėjimo ritmo skirtumai sudaro vieną iš labiausiai paplitusių kalbos atpažinimo problemų. Kai vienas žodis gali būti tariamas keliais būdais, programinė įranga gali susipainioti ir neteisingai suprasti, kas sakoma. Tas pats gali nutikti, kai žmogus kalba lėčiau arba greičiau, nei tikisi programa. Yra keletas dalinių sprendimų, pavyzdžiui, programinės įrangos mokymas pagal vieno vartotojo kalbos šablonus ir dinaminių laiko deformavimo algoritmų naudojimas, siekiant suderinti kalbą su pavyzdžių duomenų baze, tačiau jie neišsprendžia visų problemų.
Sudėtingiausia kalbos atpažinimo problema yra tariamų žodžių konteksto nustatymas. Kompiuterių programinė įranga negali identifikuoti numatytos žodžių rinkinio reikšmės, todėl kyla daugybė problemų, susijusių su transkribuotu tekstu. Panašaus skambesio žodžius, pvz., „jų“ ir „ten“, galima tiksliai parašyti tik tada, kai žinomas vartojimo kontekstas. Dėl tos pačios priežasties programinei įrangai beveik neįmanoma pateikti tikslių skyrybos ženklų, remiantis vien tik žodžių sekos žinojimu. Yra funkcinė transkripcijos programinė įranga, kuri naudojama tokiose srityse kaip medicina, tačiau rezultatas dažnai yra žodžių blokas be jokio atskyrimo, o tai reiškia, kad dokumentui redaguoti ir sukurti skaitomą galutinę kopiją vis tiek reikia žmogaus transkripcijos specialisto.