Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Valószínűségi modellek

A valószínűségi modellek (probabilistic models) relatív gyakorisági és feltételes valószínűségi értékek figyelembevételével végzik a dokumentumok felett végrehajtott információ visszakeresési műveleteket. A  valószínűségi modellek kidolgozásának indíttatása az a megfontolás volt, hogy sok esetben maguk az emberi szakértők sem tudják teljesen egyértelműen osztályokba sorolni a dokumentumokat. A különböző szakértők által megadott kulcsszavak sok esetben mások ugyanannak a dokumentumnak az esetében (bizonyára jelentős átfedések mellett). Az újdonság ebben a megközelítésben az ún jelentésbeli zaj vagy szemantikus zaj (semantic noise). Ez abban az esetben lép fel, ha egy a korpuszhoz képes kevés szóból álló lékérdező sztringet hasonlítunk össze dokuemntumokkal. Ekkor a korábban látott bináris kimenetelű döntés helyett (vagy benne volt az adott szó egy dokumentumban vagy nem) egy fuzzy jellegű átmeneti függvényt követő választ adunk egy szó dokumentumbeli előfordulására (pl. 0 és 1 közötti értékkel). Ez a fajta súlyozási módszer a valószínűségi indexelés névre hallgat (probabilistic indexing), amely a valószínűségelmélet keretei között kívánja végrehajtani a szöveges információ visszakeresés feladatait.

Amikor a felhasználó egy lekérdező sztringet ad meg, amelyre a releváns dokumentumok listáját várja válaszként, akkor a dokumentumok egy részhalmaza lesz az a dokumentum halmaz, amely csak és kizárólag a  releváns dokumentumokat tartalmazza. Ezt nevezzük ideális válasz halmaznak (ideal answer set). Az ideális válasz szet attribútumait ismerve könnyedén meghatározhatjuk azt a lekérdezést, amely ezt az ideális dokumentum részhalmazt eredményezi. A lekérdező sztring összeállítása fogalmazható úgy is, hogy az az ideális válasz halmaz meghatározására szolgál. A probléma azonban ott van, hogy nem ismerjük teljes mértékben az ideális válasz halmaz attribútumait. Annyit tudunk csak, hogy bizonyos index kulcsszavak jelentésében szeretnénk viszont látni ezeket az attribútumokat. A lekérdezéskor azonban nem ismerjük teljes mértékben a korpuszt, így a kezdeti lekérdezésünk egy kezdeti próbálkozásnak tekinthető az ideális válasz halmaz leírására. Ezt követően egy iterációs folyamat hivatott arra, hogy az ideális válasz halmaz valószínűségi leírását pontosítsa. Sőt, szinte minden felhasználó más és más kezdeti lekérdezést használ ugyanannak a dokumentum halmaznak a megtalálására. Ha a felhasználó kiválasztja a számára releváns dokumentumokat, akkor  az információ visszakereső rendszer tovább tudja finomítani az ideális válasz halmaz megtalálására irányuló tevékenységét. A rendszer a felhasználó által szolgáltatott visszajelzésekből képes finomítani a találati listában megjelenített dokumentumok körét. Az iterációs folyamat során az ideális válasz halmaz közelítése történik. A kezdeti próbálkozás az ideális válasz halmaz megtalálására arra szolgál, hogy utána a rendszer annak valószínűségét próbálja egyere hatékonyabban megbecsülni, hogy az adott felhasználó egy adott dokumentumot mekkora valószínűséggel fog relevánsnak találni. A probabilisztikus modell azt feltételezi, hogy a relevancia valószínűsége kizárólag a lekérdező sztringtől és a dokumentum korpusztól függ, valamint minden lekérdezésre létezik olyan találati dokumentum halmaz, amely releváns a felhasználó számára. Az ideális válasz halmaz (R) azzal a tulajdonsággal rendelkezik, hogy maximalizálja a relevancia teljes valószínűségét a korpusz felett adott lekérdezés esetében. Az R halmazba kerülő dokumentumok esetében a relevancia becslése során azt jósoljuk, hogy a dokumentum releváns lesz a felhasználó számára az adott lekérdező sztring mellett. A kihívás abban rejlik, hogy hogyan számítsuk ki a relevancia becslésekor annak valószínűségét. Egy adott lekérdezés esetén a probabilisztikus elven működő információ visszakereső rendszer minden dokumentumhoz egy valószínűségi értéket rendel annak megfelelően, hogy mennyire jósolja annak valószínűségét, hogy azt majd a felhasználó relevánsnak ítéli meg. Ha ezt a valószínűségi jóslást használjuk a dokumentumok relevancia rangsorolásánál, akkor ezzel minimalizáljuk a téves döntés valószínűségét. Ezt a fajta iteratív probabilisztikus megközelítést relevancia visszacsatolás néven (relevance feedback) is említik a vonatkozó szakirodalomban. A kezdeti kis számú dokumentumból a felhasználó kiválasztja, hogy számára melyek a relevánsak, és ez alapján a rendszer már egy pontosabb, a felhasználó preferenciáira építő pontosabb listát képes készíteni a relevánsnak jósolt dokumentumokról. Léteznek rendszerek, amelyek az automatikus relevancia visszacsatolás elvén működnek, amikor a kezdeti kevés számú, legrelevánsabb dokumentumokból kiindulva, azokat relevánsnak feltételezve a rendszer automatikusan végrehajtja a következő iterációs lépést ezekre a kezdeti legrelevánsabb dokumentumokra építve, csökkentve ezáltal a felhasználó részéről igényelt beavatkozás és idő mértékét. Ez a megközelítés akkor lehet hatékony, ha a kezdeti néhány dokumentum valóban releváns a felhasználónak az adott lekérdezés mellett.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com