|
Egyedi szó súlyozási technikák Az egyedi szavak súlyozása abból a megfontolásból ered, hogy igyekszünk egyes lekérdező szavak súlyát, erejét megkülönböztetni abból a szempontból, hogy melyiknek mekkora a relatív fontossága a lekérdezésben. Ez a művelet is a szövegbányászati előfeldolgozások közé sorolható, mert a későbbi műveletek ennek eredményét felhasználják például az információ visszakeresés során. Például a „mondd meg nekem mi az a spektrális szövegbányászat” sztringben a spektrális és a szövegbányászat szavak nagyobb súlyt képviselnek, mint pl. az „az”. Ugyan ez a súlyozás dokumentumok súlyozására is használható hasonló megfontolásokkal. A legtöbb esetben nem csak a lekérdező sztring szavaihoz rendelünk súlyokat, hanem minden korpuszbeli dokumentumban lévő szóhoz is. Ezen súlyok alkothatják a szó-dokumentum mátrix (term-document matrix, TD matrix) elemeit is. A leggyakoribb módszer, amely sok további módszer kiindulási alapját képezi, az úgynevezett szó-gyakoriság-inverz-dokumentum-gyakoriság (term frequency - inverse document frequency, TFIDF) módszer. Egy olyan egyedi szó, amely gyakran előfordul a dokumentumok egy szűk körében (nagy szógyakorisági (TF) érték), annak az egyedi szónak ezen kevés számú dokumentumokra vonatkozóan nagy lesz a súlya. Amennyiben egy egyedi szó szinte minden dokumentumban sokszor előfordul (pl. a, az, és, stb.), akkor súlya kicsi lesz. A TFIDF súlyozás és különböző változatai elsősorban a vektortér modellek esetében használható egyszerűen, amikor egy vektortérben például euklidészi távolsággal mérjük adott dokumentumok távolságát oly módon, hogy a dokumentumok koordinátáinak meghatározásakor már a TFIDF súlyozást követően előállt TD mátrix elemeit használjuk. Euklidészi távolságmérés helyett használhatjuk az úgynevezett koszinusz hasonlósági mértéket is, amely a vektortér vektorainak hajlásszögét használja fel a hasonlósági érték meghatározásakor. Fuzzy elvű dokumentum modellezés esetén ezek a szó súly értékek tekinthetőek tagsági függvény értékeknek is a Fuzzy halmazok felett. Egy Fuzzy halmaz elemeiről csak %-os értelemben lehetséges megmondani, hogy a halmaz elemei vagy nem. Általában a tagsági függvény minden Fuzzy halmaz felett ad egy értéket egy adott elemnek. Ezáltal egy elem bizonyos halmazoknak jobban része, nagyobb mértékben része, mint más halmazoknak. Ebben az esetben tehát a szó súly értékek azt jelzik, hogy egy adott dokumentum milyen mértékben tartozik egy adott szó által reprezentált, egy adott témát leíró dokumentumok közé. Az egyedi szavak súlyozása egy tanulási cikluson keresztül folyamatosan változtatható. Ez az úgynevezett relevancia visszacsatolás módszere. Ekkor a felhasználótól kapott visszacsatolások alapján a szavak súlyozása fokozatosan javítható. A felhasználó visszacsatolása arra vonatkozik, hogy egy adott dokumentum egy adott lekérdezésre vonatkozóan mennyire releváns a megítélése szerint. Elegendő, ha a felhasználó a dokumentumok egy kis száma esetében mondja csak meg egy skála alkalmazásának segítségével, hogy az a néhány dokumentum az adott lekérdezésére vonatkozóan szerinte mennyire releváns. Ebből a kiinduló információból a szövegbányászati rendszer már képes tanulni. Egy releváns dokumentumban szereplő lekérdezésbeli egyedi szavainak súlyai megnövelhetőek, míg a nem releváns dokumentumokban lévő lekérdező szavak esetében a súlyok csökkenthetőek. A súlyok változtatását követően a lekérdezés újból lefuttatható abban a reményben, hogy az újabb körben már relevánsabb dokumentumokat kapunk vissza. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|