Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Egyedi szó súlyozási technikák

Az egyedi szavak súlyozása abból a megfontolásból ered, hogy igyekszünk egyes lekérdező szavak súlyát, erejét megkülönböztetni abból a szempontból, hogy melyiknek mekkora a relatív fontossága a lekérdezésben. Ez a művelet is a szövegbányászati előfeldolgozások közé sorolható, mert a későbbi műveletek ennek eredményét felhasználják például az információ visszakeresés során. Például a „mondd meg nekem mi az a spektrális szövegbányászat” sztringben a spektrális és a szövegbányászat szavak nagyobb súlyt képviselnek, mint pl. az „az”. Ugyan ez a súlyozás dokumentumok súlyozására is használható hasonló megfontolásokkal. A legtöbb esetben nem csak a lekérdező sztring szavaihoz rendelünk súlyokat, hanem minden korpuszbeli dokumentumban lévő szóhoz is. Ezen súlyok alkothatják a szó-dokumentum mátrix (term-document matrix, TD matrix) elemeit is.

A leggyakoribb módszer, amely sok további módszer kiindulási alapját képezi, az úgynevezett szó-gyakoriság-inverz-dokumentum-gyakoriság (term frequency - inverse document frequency, TFIDF) módszer. Egy olyan egyedi szó, amely gyakran előfordul a dokumentumok egy szűk körében (nagy szógyakorisági (TF) érték), annak az egyedi szónak ezen kevés számú dokumentumokra vonatkozóan nagy lesz a súlya. Amennyiben egy egyedi szó szinte minden dokumentumban sokszor előfordul (pl. a, az, és, stb.), akkor súlya kicsi lesz. A TFIDF súlyozás és különböző változatai elsősorban a vektortér modellek esetében használható egyszerűen, amikor egy vektortérben például euklidészi távolsággal mérjük adott dokumentumok távolságát oly módon, hogy a dokumentumok koordinátáinak meghatározásakor már a TFIDF súlyozást követően előállt TD mátrix elemeit használjuk. Euklidészi távolságmérés helyett használhatjuk az úgynevezett koszinusz hasonlósági mértéket is, amely a vektortér vektorainak hajlásszögét használja fel a hasonlósági érték meghatározásakor. Fuzzy elvű dokumentum modellezés esetén ezek a szó súly értékek tekinthetőek tagsági függvény értékeknek is a Fuzzy halmazok felett. Egy Fuzzy halmaz elemeiről csak %-os értelemben lehetséges megmondani, hogy a halmaz elemei vagy nem. Általában a tagsági függvény minden Fuzzy halmaz felett ad egy értéket egy adott elemnek. Ezáltal egy elem bizonyos halmazoknak jobban része, nagyobb mértékben része, mint más halmazoknak. Ebben az esetben tehát a szó súly értékek azt jelzik, hogy egy adott dokumentum milyen mértékben tartozik egy adott szó által reprezentált, egy adott témát leíró dokumentumok közé.

Az egyedi szavak súlyozása egy tanulási cikluson keresztül folyamatosan változtatható. Ez az úgynevezett relevancia visszacsatolás módszere. Ekkor a felhasználótól kapott visszacsatolások alapján a szavak súlyozása fokozatosan javítható. A felhasználó visszacsatolása arra vonatkozik, hogy egy adott dokumentum egy adott lekérdezésre vonatkozóan mennyire releváns a megítélése szerint. Elegendő, ha a felhasználó a dokumentumok egy kis száma esetében mondja csak meg egy skála alkalmazásának segítségével, hogy az a néhány dokumentum az adott lekérdezésére vonatkozóan szerinte mennyire releváns. Ebből a kiinduló információból a szövegbányászati rendszer már képes tanulni. Egy releváns dokumentumban szereplő lekérdezésbeli egyedi szavainak súlyai megnövelhetőek, míg a nem releváns dokumentumokban lévő lekérdező szavak esetében a súlyok csökkenthetőek. A súlyok változtatását követően a lekérdezés újból lefuttatható abban a reményben, hogy az újabb körben már relevánsabb dokumentumokat kapunk vissza.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com