4.2 Rozpoznávání textu

Rozpoznávání textu z naskenované předlohy je velmi obvyklá činnost při sběru dat. Je velmi neefektivní některé texty přepisovat, proto se obvykle skenují a pomocí programových nástrojů převádí z rastrové podoby do podoby textové.

Při rozpoznávání textu postupuje program následujícím způsobem:

  • Rastr rozebere na jednotlivé řádky (mezi řádky jsou mezery)
  • Řádky rozloží na jednotlivá slova (mezi slovy jsou mezery)
  • Slova rozloží na jednotlivé znaky (mezi znaky bývají mezery, někdy však mezery chybí nebo jsou nevýrazné a např. znaky rn mohou být identifikovány jako znak m)
  • Jednotlivé znaky jsou rozpoznávány s využitím dvou technik: By pattern, By shape

Úvod

Technika By pattern (Dle vzoru) je založena na porovnání získané bitmapy, která obsahuje jeden znak se vzorníkem znaků (podobně jako bitmapové fonty). Znak ze vzorníku, který se nejvíce podobá získanému, je vyhodnocen jako ten správný. Nevýhodou tohoto řešení je nutná existence vzorníků pro různá písma.

By pattern, Dle vzoru

Technika By shape (Dle tvaru) je založena na aproximaci získané bitmapy (tvaru písmena) pomocí vektorové křivky. Získaný vektor je pak vyhodnocen dle tvaru (parametrů). Výhodou tohoto řešení je, že je možné rozeznat (nemusí to však jít vždy) i písmo, pro které nemáme vzorník. Rozpoznání bývá obvykle i rychlejší.

By shape, Dle tvaru

KONTROLNÍ OTÁZKA

 

Popište alespoň jeden způsob (algoritmus) rozpoznávání textu