Optinis simbolių atpažinimas (OCR) yra spausdintos medžiagos konvertavimo į teksto ar teksto apdorojimo failus, kuriuos galima lengvai redaguoti ir saugoti, procesas. Ši technologija leido tokias medžiagas saugoti naudojant daug mažiau vietos nei spausdintinės medžiagos. OCR technologija padarė didžiulę įtaką informacijos saugojimui, bendrinimui ir redagavimui. Prieš optinį simbolių atpažinimą, jei kas nors norėjo paversti knygą teksto apdorojimo failu, kiekvienas puslapis turėjo būti įvestas žodis po žodžio.
OCR technologija reikalauja ir aparatinės, ir programinės įrangos. Be to, norint užbaigti procesą, sudėtingoms OCR sistemoms reikalinga papildoma grandinės plokštė pačiame kompiuteryje. Optinis skaitytuvas nuskaito tekstą puslapyje, tada suskaido šriftus į taškų seriją, vadinamą bitmap. Programinė įranga gali nuskaityti dažniausiai naudojamus šriftus ir atskirti, kur eilutės prasideda ir baigiasi. Tada šis bitų žemėlapis išverčiamas į kompiuterio tekstą.
Nors optinis simbolių atpažinimas pastaraisiais metais padarė didžiulę pažangą, jis vis tiek ne visada gerai atpažįsta rašyseną arba šriftus, kurie atrodo panašūs į rašyseną. Bankų pramonėje yra sistemų, kurios naudoja OCR technologiją, kad bandytų perskaityti sumas ant ranka išrašytų čekių, kad būtų galima kartu su kompiuterio galimybe nuskaityti maršruto ir sąskaitų numerius.
Norėdami suprasti OCR galią, galite pažvelgti į realų pavyzdį. Įsivaizduokite policijos skyrių, kurio visi teistumo įrašai saugomi didžiulėse dokumentų spintose. Nors milijonų puslapių nuskaitymas būtų brangus ir daug laiko reikalaujantis darbas, nauda didžiulė.
OCR sistemai pavertus puslapius į kompiuteriu skaitomą tekstą, detektyvas, pavyzdžiui, per kelias sekundes galėtų perskaityti visą istoriją. Rankiniu būdu rasti konkretų įrašą gali būti ne per sunku, tačiau įsivaizduokite, kaip detektyvas bando ieškoti visų nusikaltimų, padarytų tam tikroje sankryžoje nuo 8:00 iki 8:30. Šis pavyzdys tik subraižo ieškomo teksto galios paviršių, ir tai tik viena iš priežasčių, kodėl daugelis įmonių ir institucijų išleidžia milijonus dolerių savo seniems duomenims OCR atlikti.