Rozpoznávání textu z naskenované předlohy je
velmi obvyklá činnost při sběru dat. Je velmi neefektivní některé texty
přepisovat, proto se obvykle skenují a pomocí programových nástrojů
převádí z rastrové podoby do podoby textové.
Při rozpoznávání textu postupuje program následujícím způsobem:
- Rastr rozebere na jednotlivé řádky (mezi řádky jsou mezery)
- Řádky rozloží na jednotlivá slova (mezi slovy jsou mezery)
- Slova rozloží na jednotlivé znaky (mezi znaky bývají
mezery, někdy však mezery chybí nebo jsou nevýrazné a např. znaky rn
mohou být identifikovány jako znak m)
- Jednotlivé znaky jsou rozpoznávány s využitím dvou technik:
By pattern, By shape
|
Úvod
|
Technika By pattern (Dle vzoru) je založena na porovnání
získané bitmapy, která obsahuje jeden znak se vzorníkem znaků
(podobně jako bitmapové fonty). Znak ze vzorníku, který se nejvíce
podobá získanému, je vyhodnocen jako ten správný. Nevýhodou tohoto
řešení je nutná existence vzorníků pro různá písma.

|
By pattern, Dle vzoru
|
Technika By shape (Dle tvaru) je založena na aproximaci
získané bitmapy (tvaru písmena) pomocí vektorové křivky. Získaný
vektor je pak vyhodnocen dle tvaru (parametrů). Výhodou tohoto řešení
je, že je možné rozeznat (nemusí to však jít vždy) i písmo, pro které
nemáme vzorník. Rozpoznání bývá obvykle i rychlejší.

|
By shape, Dle tvaru
|