Kas yra simbolių kodavimas?

Simbolių kodavimas kompiuterių programavime yra metodas arba algoritmas, naudojamas rasti paprastai skaitmeninį simbolio, glifo ar simbolio atvaizdą. Naudoti simbolių kodavimą kompiuteriuose būtina, nes informacija kompiuterio atmintyje ir kompiuterio skaitomoje laikmenoje yra saugoma kaip bitų arba skaičių sekos. Tam reikia naudoti kodavimą, norint paversti neskaitinius simbolius, naudojamus ekrane arba žmogaus skaitomame išvestyje, į formą, kurią gali valdyti kompiuteris. Konkretesnėje programoje hiperteksto žymėjimo kalbos (HTML) dokumentai, kuriuos skaito žiniatinklio naršyklės, gali apibrėžti, kokio tipo simbolių kodavimą jos naudoja, kad naršyklė žinotų, kurį konkretų simbolių rinkinį naudoti rodant informaciją dokumente. Naudojamos kelios kodavimo schemos, nors daugelis šių patentuotų ir senų rinkinių pamažu pakeičiami Unicode® kodavimo standartu.

Pirmaisiais kompiuterių laikais, kai buvo ribota atminties vieta, pagrindiniai anglų kalbos abėcėlės simboliai, įskaitant skyrybos ženklus ir skaičius, buvo saugomi 7 bitų sekomis, leidžiančiomis naudoti 128 skirtingus simbolius. Šioje originalioje schemoje kiekvienas 7 bitų baitas reiškė vieną anglų abėcėlės simbolį, sunumeruotą iš eilės. Šis simbolių kodavimas buvo efektyvus ir galiausiai buvo standartizuotas ir naudojamas daugumoje pagamintų kompiuterių. Nors kodavimo sistema išsivystė į Unicode® kodavimo standartą, koncepcija išliko ta pati. Būtent, kiekvienas kalbos simbolis yra tiesiogiai susijęs su vienu skaičiumi dideliame standartiniame simbolių rinkinyje, o kompiuteris naudoja šį skaičių simboliui saugoti, apdoroti ir indeksuoti.

Kiti simbolių kodavimo tipai buvo sukurti dėl įvairių priežasčių. Kai kurios, specialiai pritaikytos anglų abėcėlei ir skirtos naudoti tik tekstui, savo simbolius susiejo su 7 bitų sekomis ir išskirstė jas 8 bitų baitais arba oktetais. Tai leido sutaupyti 1 bitą vienam oktetui, efektyviai naudojant simbolių kodavimą kaip glaudinimo tipą. Kitose kodavimo schemose buvo bandoma pateikti pagrindinę informaciją apie simbolį, o vėliau – papildomus simbolius, kurie atvaizduotų specialius akcentus, kurie gali būti naudojami rašant kita kalba, nors jų buvo atsisakyta naudojant paprastesnius „vienas su vienu“ kodavimo būdus.

HTML dokumentuose simbolių kodavimas yra maždaug toks pat, kaip ir platesnė sąvoka, išskyrus tai, kad apibrėžiama koduotė apima visą simbolių rinkinį. Tai gali būti svarbu ne tik užsienio kalboms, bet ir dokumentams, kuriuose naudojami specifiniai gamtos mokslų ar matematikos simboliai, kurių nėra visuose simbolių rinkiniuose. Tai taip pat gali būti naudinga naudojant skyrybos ženklus ir kitus simbolius, kurių gali nebūti arba kurie yra skirtingai susieti kodavimo schemose. Dokumentai, kuriuose netinkamai apibrėžiama nestandartinė simbolių koduotė, gali būti rodomi neteisingai arba gali būti užpildyti nesąmoningais simboliais ir vietos rezervavimo ženklais, o ne skaitoma informacija.