|
A spektrális szövegbányászat egy eredeti ötletnek köszönhetően kezd teret hódítani. Lényege abban rejlik, hogy a korpusz vektortérbeli reprezentációja helyett a teljes korpuszt áttranszformáljuk a frekvencia tartományba, ahol a jelfeldolgozésból ismert diszkrét Fourier (DFT) vagy diszkrét koszinusz (DCT) vagy más hasonló transzformációval történik a szöveges dokumentumok további feldolgozása. Kezdeti megjelenése az ún. Fourier tartománybeli rnagsorolás módszerével kezdődött (Fourier domain scoring, FDS). Ahogy a vektortér modell ismertetésénél elhangzott, a szöveges információkeresés klasszikus módszere a vektortér modell, amely napjainkban még mindig képes tömegigényt kielégíteni, azonban hiányosságai egyre inkább sürgetővé teszik minőségileg új és hatékonyságában vele összemérhető, illetve hatékonyabb modellek kialakítását. Ebből a szempontból egy igéretes módszer a spektrális szövegbányászat. A jelenleg elterjedt információ kinyerési (information retrieval) algoritmusok számos hátrányával találjuk magunkat szemben, amikor szöveges információ keresési tevékenységünk során klasszikus kereső rendszerek (pl. Google) használatával olyan találatokat kapunk, amelyek nagyrésze számunkra teljesen irreleváns. Ennek legfőbb oka, hogy a jelenleg elterjedt keresőrendszerek kizárólag a keresőszavak dokumentumokban történő előfordulási gyakoriságát veszik figyelembe. A keresőszavak gyakorisági rangsorolását általában az ún. TFIDF (Term Frequency Inverse Document Frequency) találati rangsoroló algoritmus segítségével végzik a klasszikus szövegbányászati és információkinyerési rendszerekben. Az információ kinyerés egyik viszonylag új (2003) szövegbányászati megközelítése a spektrális elvű információ kinyerés, amely képes a klasszikus módszerek hatékonyságának felülmúlására, ezáltal az információkeresést végző személy számára nagyobb relevancia hányadú találati lista produkálására ugyanazon dokumentum korpusz felett. A spektrális információ kinyerés lényege, hogy a találati eredmények rangsorolásánál az algoritmus nem csak a keresőszavak gyakorisági értékeit veszi figyelembe, hanem azok előfordulási helyzetét is, pontos dokumentumbeli pozícióit. A spetrális szövegbányászat során a dokumentum korpuszt nem a gyakorisági értékekre épülő TD mátrix formában reprezentált vektortérben elemezzük, hanem hullámtérben. A szövegmodellezés vektortérszerű ábrázolása a hagyományos esetben elveszíti a szövegek szintaktikai információit, hiszen nem veszi figyelembe a szavak egymáshoz képesti elhelyezkedését. A szavak szövegeken belüli pozícióját megragadni képes spektrális szövegbányászati modell már jóval összetettebb matematikai formalizmust igényel, azonban képes megőrizni a szavak pozíciójából eredő információtartalmat, amely hasznosításával relevánsabb találati lista produkálható. A reprezentáció alapja egy tenzor, amely ebben az esetben az egyes térbeli helyekhez rendelt egyedi és egymástól független vektorterek összességeként képzelhető el. A kifejezések szövegen belüli térbeli ábrázolása új, statisztikai információkat rejt magában, ha elvégzünk egy frekvenciatartományba képező transzformációt. A dokumentumok spektrális térbe történő transzformációjának alapja az ún. Term szignálok képzése. Egy term szignál azt mutatja meg, hogy az adott egyedi szó a teljes dokumentum korpuszban hol fordul elő, mely pozíciókon. Ez tulajdonképpen egy bináris vektor, amely ott tartalmaz 1-eseket, ahol az adott szó előfordul, egyébként 0 értéket vesz fel. A vektor hossza a dokumentum korpusz összes szavainak számával egyenlő. A spektrális információ visszakereső rendszerek nagyobb pontosság és teljesség mutatókkal rendelkeznek, mint a klasszikus vektortér modellben működő módszerek. Korpusz mérettől függően elmondható, hogy a spektrális módszerek 10-60%-os fölénnyel minden esetben rendelkeznek. Ez annak is köszönhető nagyrészt, hogy míg a vektortér reprezentáció során a TD mátrixba konvertálás után a szavak egymáshoz képesti pozíció információi teljesen elvesznek, addig a spektrális reprezentáció során ezek maradnak. Míg a dokumentumok számának növekedésével a vektortér alapú módszerek végrehajtása egyre nehezebb, addig az elosztott számítási architektuárkon is kiválóan működő, nagy mértékben párhuzamosítható spektrális módszerek a nagy méretű korpuszokkal is megbirkóznak. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|