Co je to OCR?

3. 3. 2023 | Tým Adaptech | Témata: Historie OCR

V nedávné novince jsme popsali možnosti technologie OCR v produktech společnosti Dolphin. Ale co je to vlastně OCR a jak to funguje? Na to se podíváme právě dnes.

Technologie optického rozpoznávání znaků (OCR) je způsob, jak převést tištěný nebo psaný text z papírového dokumentu nebo obrazového souboru do digitální podoby, a patří k jedné z prvních možností, jak se nevidomí mohli dostat k tištěným materiálům.

Historie optického rozpoznávání znaků

V roce 1974 založil Ray Kurzweil společnost Kurzweil Computer Products, Inc., jejíž produkt pro optické rozpoznávání znaků (OCR) pro více písem dokázal rozpoznat text vytištěný prakticky jakýmkoliv písmem. Rozhodl se, že nejlepším využitím této technologie by mohlo být zařízení pro nevidomé. Proto vytvořil čtecí stroj Kurzweil Reading Machine (KRM), který dokázal naskenovat text z papíru, rozpoznat jej a poté ho nahlas přečíst pomocí hlasové syntézy. Díky tomuto stroji se i nevidomí dostali k tištěným knihám, časopisům a dalším materiálům. Zajímavostí pak je, že prvním zákazníkem, který si tento stroj v roce 1976 zakoupil, byl slavný zpěvák Stevie Wonder.

V roce 1980 Kurzweil prodal svou společnost společnosti Xerox, která měla zájem o další komercializaci převodu textu z papíru do počítače. Technologie OCR se stala populární na počátku 90. let při digitalizaci historických novin. Od té doby pak technologie prošla několika vylepšeními. Dnešní řešení mají schopnost poskytovat téměř dokonalou přesnost OCR. Pokročilé metody se používají k automatizaci složitých pracovních postupů při zpracování dokumentů. Než byla k dispozici technologie OCR, jedinou možností digitálního formátování dokumentů bylo ruční přepisování textu. Nejen, že to bylo časově náročné, ale také to přinášelo nevyhnutelné nepřesnosti a překlepy. Dnes jsou služby OCR široce dostupné veřejnosti. Např. populární asistivní software, včetně produktů Dolphin, využívají technologii firmy Kofax OmniPage.

Jak OCR funguje?

K převádění fyzického dokumentu do jeho digitální podoby se ve většině případů využívá skener nebo fotoaparát telefonu. Ten nejprve papírový dokument nasnímá a poté již přijde na řadu software pro jeho rozpoznávání. Jakmile jsou nasnímány všechny stránky, software převede dokument na dvoubarevný nebo černobílý obrázek. Ten je pak rozdělen na světlé a tmavé oblasti. Světlé oblasti jsou pozadí a tmavé oblasti obsahují znaky a číslice, které je třeba rozpoznat. Rozpoznávání znaků probíhá pomocí jednoho ze dvou algoritmů – rozpoznávání vzorků, nebo rozpoznávání prvků.

  • Rozpoznávání vzorků se používá, jestliže naskenovaný text obsahuje různé fonty a formáty.
  • Rozpoznávání prvků se používá v případech, kdy OCR použije pravidla týkající se různých částí konkrétního písmena nebo čísla k rozpoznání znaků v naskenovaném dokumentu. Mezi takové části patří počet lomených čar, překřížených čar nebo křivek ve znaku. Například velké písmeno „A“ je uloženo jako dvě diagonální čáry propojené vodorovnou čarou uprostřed. Když je znak identifikován, je převeden na kód ASCII (American Standard Code for Information Interchange), který počítačové systémy používají k dalším manipulacím.

OCR software analyzuje strukturu obrazu dokumentu. Rozdělí stránku na prvky, jako jsou bloky textu, tabulky nebo obrázky. Řádky jsou rozděleny na slova a poté na znaky. Jakmile jsou identifikovány jednotlivé znaky, program je porovná se sadou obrázků vzorů. Po zpracování všech pravděpodobných shod vám program nabídne rozpoznaný text. Tím je zajištěna co nejlepší přesnost výsledného textu. I tak je ale dobré po rozpoznání text projít a doopravit. I ten nejlepší software může některé znaky rozpoznat chybně.

Různé typy technologie OCR

Technologie OCR lze rozřadit podle toho, co dokáží zachytit. Tyto zahrnují:

  • Optické rozpoznávání znaků (OCR): Systémy OCR rozpoznávají ručně psané nebo tištěné znaky na základě existující interní databáze znaků.
  • Optické rozpoznání slov (OW): Tato metoda se zaměřuje na strojopisný text, po jednom konkrétním slově, a používá se pro jazyky, které oddělují jednotlivá slova mezerami.
  • Optické rozpoznávání značek (OMR): Typ OMR analyzuje vodoznaky, loga, symboly, značky a vzory na papírovém dokumentu.
  • Inteligentní rozpoznávání znaků (ICR): ICR používá nástroje pro sběr dat ke čtení textu psaného rukou nebo kurzívou. Tato metoda využívá strojové učení a technologii AI k analýze různých prvků textu (křivky, smyčky, čáry atd.). ICR identifikuje a zpracovává jeden znak po druhém.

Téměř jakýkoli typ obrázku, který obsahuje psaný text (napsaný na počítači, ručně psaný nebo tištěný), lze pomocí technologie OCR převést na strojově čitelná textová data, která pak lze použít k další práci.

Shrnutí

Používáte technologii OCR na počítači, nebo na telefonu? Jaký OCR software preferujete a proč? Podělte se o své názory a zkušenosti v komentářích na našem Facebooku.