Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

A vektortér modell

A vektortér modell a szövegbányászati modellek első, klasszikus reprezentációs eszköze. Ekkor a dokumentum állomány (korpusz) minden dokumentuma egy pontnak felel meg a sokdimenziós vektortérben, azaz egy dokumentum valójában az ortogonális egyedi szavak lineáris kombinációjaként adódik. Ez alapján a térbeli struktura alapján ezután lehetőség nyílik az egyes dokumentumok egymáshoz képesti hasonlóságának feltárására (lásd távolság metrikák), dokumentum klaszterek definiálására, egyéb jelentéstartalom kinyerésére.

A vektortér modellben a tér dimenziószáma alapesetben a teljes korpusz egyedi szavainak száma. Az egyedi szavak száma egy nyelv esetében tipikusan pl. 100.000 szó, de ez nyelvenként jelentősen változhat. Amennyiben a korpusz csak egy szűk terület dokumentumait foglalja egységbe, akkor értelem szerűen az egyedi szavak száma kisebb lesz, hiszen több tárgyterület terminológiáját mellőzi. Csökkenthető a vektortér dimenziószáma pl. a stopszavak aliminációjával, és szótövezéssel is, amelyek szövegbányászti előfeldolgozási műveleteknek tekinthetőek, sokszor pontosan azzal a céllal, hogy a vektortér modell dimenziószámát csökkentsük. Ha figyelembe vesszük, hogy az egyedi szavak száma elérheti vagy akár meg is haladhatja a 100.000-et, akkor beláthatjuk, hogy valóban szükség van a kezdeti, és hatékonyan mindenképpen nehezebben kezelhető 100.000 dimenziós vektortér dimenzionális redukálására.

A szó-dokumentum mátrix (angol nevén Term-Document mátrix vagy TD mátrix) a vektortér leírásának és reprezentálásának eszköze. A vektortérben az egyes dokumentumok a térben elhelyezkedő pontoknak felelnek meg. Egy teljes dokumentum korpusz ilyen pontok sokaságának fogható fel. Egy-egy dokumentum pont koordinátáját a benne szereplő egyedi szavak határozzák meg. A TD mátrix sorai az ún. egyedi szó vektorok, míg a mátrix oszlopai az ún. dokumentum vektorok.

Bináris TD mátrix esetében a TD mátrix celláiban 0 vagy 1 szerepel. Ha a TDi,j cella értéke 1, akkor az i-edik szó a j-edik dokumentumban benne van, egyébként 0 (ha nincs benne abban a dokumentumban). A bináris TD mátrix lehetőségei igen korlátozottak, ennélfogva alkalmazása nem is gyakori. A bináris TD mátrixot sokszor aláírásnak, a dokumentumok kézjegyének is szokták nevezni (signature). A bináris TD mátrixot általában csak arra szoktuk használni, hogy a Boolean algebra logikai operátoraival (és, vagy, stb) a dokumentumok olyan részhalmazát válaszzuk ki, amelyekre elegendő lefuttantni az informácó visszakereséalgoritmusokat. Így tehát igen egyszerűen ki tudunk szűrni olyan dokumentumokat, amelyek elemzése szükségtelen, mert már a kezdetek kezdetén megállapítható, hogy a keresésbe történő bevonásuk teljesen felesleges, hiszen egyáltalán nem tartalmazzák a keresett szavakat vagy azok megfelelőit. [39] A bináris TD mátrix hiányosságainak pótlására dolgozták ki a szógyakorisági TD mátrix és a súlyozott TD mátrix reprezentációkat.

A szógyakorisági TD mátrix esetében egy cellában az az érték szerepel (TDi,j), ami azt adja meg, hogy az i-edik egyedi szó a j-edik dokumentumban hányszor fordul elő. Ez már egy, a bináris módszernél pontosabb leírási mód, ahol egy dokumentum pont vektortérbeli helyzetét azok a koordináták írják le, amik a saját oszlopvektorából adódnak. A vektortérben ebben az esetben két dokumentum vektora által által bezárt szög nagysága (hasonlóság) attól függ, hogy mekkora azon egyedi szavak előfordulási gyakorisága, amelyek mindkét dokumentumban előfordulnak, függetlenül az egyedi szavak közötti korrelációtól.

A súlyozott TD mátrix esetében a fenti gyakorisági értékeket még egy súlyozáson vezetik kereszül. Ennek köszönhetően a kevésbe releváns (pl. stopszó közeli) szavak kisebb súllyal kerülnek bele a mátrixba, ezáltal hatásuk a vektortérben kevésbé lesz érzékelhető. Az így kapott vektortér modell már egy még pontosabb reprezentációja a teljes dokumentum korpusznak. A legismertebb sulyozási formula a TFIDF súlyozás, de a TFIDF súlyozáson kívül számos egyéb szó súlyozási technika terjedt el. Ezek egyrésze az eredeti TFIDF súlyozás valamilyen változatai. Egy ilyen változat például a normalizált dokumentum gyakorisággal (normalized frequency) számoló módszer.

A klasszikus vektortér modell igen komoly hátránya, hogy amint a korpusz átketül a TD mátrix reprezentációba, elvesznek a szavak egymáshoz képesti pozíció információi. Ez amiatt van, mert a TD mátrix csak az egyedi szavak gyakoriságát képes tárolni, a szavak egymáshoz képest helyzetét már nem. Ebből adódóan nehézkes az azonos formai alakú, de kontextusfüggően más jelentésű szavak kezelése.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com