Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Optikai karakterfelismerés

A különböző formátumú dokumentumok kezelésének egyik speciális esete, amikor a kezelendő dokumentumok még nem állnak rendelkezésre elektronikus formában. Ebben az esetben szinte mindig arról van szó, hogy a dokumentumok kinyomtatva, papír alapú hordozón jelennek meg. Szövegbányászati tevékenység végzéséhez értelemszerűen digitalizálni kell a még nem digitalizált, papíron nyomtatásban vagy írásban meglévő dokumentumokat, azaz a képként érzékelt dokumentumot szövegfájl formátumba kell átalakítani, hogy abban az után elektronikusan szerkeszthető és feldolgozható legyen. Ebben a szituációban kap szerepet az optikai karakter felismerés (OCR: Optical Character Recognition), amely ezáltal szintén szövegbányászati előfeldolgozásnak tekinthető.

Az optikai karakter felismerés a mesterséges intelligencia jelfeldolgozó és generalizációs képességeit kiaknázva képes magas hatékonysággal nyomtatott, papír alapú dokumentumokon lévő karaktereket felismerni. Az alap kihívás itt az, hogy a nyomtatott papír alapú dokumentumok esetében nagy zaj hányaddal kell megküzdeni annak érdekében, hogy a releváns információt kihámozzuk az érzékelt jelek és minták közül. Nyomtatott dokumentum esetéen zajnak tekinthető például egy apró folt a papíron, tinta elmosódás, tinta hiány, homályos háttér, apró gyűrődés a papíron, túl közeli vagy egybeolvadó betűk, betű dőlésszögének ingadozása. Kézírás esetén a kihívás még nagyobb, hiszen itt a személyiségjegyek sokszínűségéből  adódó írásminták kavalkádjából kell kihámozni a karaktereket. Mind a nyomtatott, mind pedig a kézírott esetben az optikai karakterfelismerő rendszer egy tanulási fázison átvesve képes olyan mintákat is osztályozni (értsd a megfelelő karaktert felismerni), amelyekkel a tanulási fázisban nem találkozott, tehát megvan a szükséges generalizációs képessége.

Az első üzleti alkalmazók egyike a bankok voltak, ők használtak először optikai karakterfelismerő rendszereket. Kezdetben speciális karaktereket dolgoztak ki annak érdekében, hogy a karakterfelismerő redszer dolgát megkönnyítsék. Ma a karakter felismerő rendszerek nagyrésze neurális hálózati alapokon megvalósított asszociatív memória elven működik.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com