|
A különböző formátumú dokumentumok kezelésének egyik speciális esete, amikor a kezelendő dokumentumok még nem állnak rendelkezésre elektronikus formában. Ebben az esetben szinte mindig arról van szó, hogy a dokumentumok kinyomtatva, papír alapú hordozón jelennek meg. Szövegbányászati tevékenység végzéséhez értelemszerűen digitalizálni kell a még nem digitalizált, papíron nyomtatásban vagy írásban meglévő dokumentumokat, azaz a képként érzékelt dokumentumot szövegfájl formátumba kell átalakítani, hogy abban az után elektronikusan szerkeszthető és feldolgozható legyen. Ebben a szituációban kap szerepet az optikai karakter felismerés (OCR: Optical Character Recognition), amely ezáltal szintén szövegbányászati előfeldolgozásnak tekinthető. Az optikai karakter felismerés a mesterséges intelligencia jelfeldolgozó és generalizációs képességeit kiaknázva képes magas hatékonysággal nyomtatott, papír alapú dokumentumokon lévő karaktereket felismerni. Az alap kihívás itt az, hogy a nyomtatott papír alapú dokumentumok esetében nagy zaj hányaddal kell megküzdeni annak érdekében, hogy a releváns információt kihámozzuk az érzékelt jelek és minták közül. Nyomtatott dokumentum esetéen zajnak tekinthető például egy apró folt a papíron, tinta elmosódás, tinta hiány, homályos háttér, apró gyűrődés a papíron, túl közeli vagy egybeolvadó betűk, betű dőlésszögének ingadozása. Kézírás esetén a kihívás még nagyobb, hiszen itt a személyiségjegyek sokszínűségéből adódó írásminták kavalkádjából kell kihámozni a karaktereket. Mind a nyomtatott, mind pedig a kézírott esetben az optikai karakterfelismerő rendszer egy tanulási fázison átvesve képes olyan mintákat is osztályozni (értsd a megfelelő karaktert felismerni), amelyekkel a tanulási fázisban nem találkozott, tehát megvan a szükséges generalizációs képessége. Az első üzleti alkalmazók egyike a bankok voltak, ők használtak először optikai karakterfelismerő rendszereket. Kezdetben speciális karaktereket dolgoztak ki annak érdekében, hogy a karakterfelismerő redszer dolgát megkönnyítsék. Ma a karakter felismerő rendszerek nagyrésze neurális hálózati alapokon megvalósított asszociatív memória elven működik. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|