|
Mélyszemantikai indexelés (latent semantic indexing) A klasszikus vektortér modell felett működő klasszikus szövegbányászati rendszerek információ visszakeresési (information retrieval) műveleteinél csak olyan dokumentumokat vagyunk képesek alapesetben visszakeresni, amelyekben a lekérdező sztringben szereplő szavak pontos megfelelői szerepelnek. Ez azért van így, mert kezdetleges esetben az információ visszakeresés alapja az egyező szavak megkeresése. Ez a megközelítés azzal jár, hogy úgy tekintünk a szavakra, mintha azok egymástól teljesen függetlenek lennének. Ez azonban nyilvánvalóan nem így van a valóságban. Ezt a kötöttséget némileg csökkenteni tudja például thesaurus szótárral történő kibővítés. Azonban a mélyszemantikai indexelés (latent semantic indexing, LSI) egy olyan technika, amely képes a szavak közötti jelentésbeli, szemantikai információkat megragadni, és ezáltal olyan, egyébként releváns dokumentumokat is találatként kiadni az információ visszakeresési folyamat során, amelyekben az eredeti lekérdező sztring egyik szava sem fordul elő. Ez a képessége annak köszönhető, hogy képes a szavak közötti köztes relációkat látens viszonyokat, szemantikai összefüggést modellezni, megnövelve ezáltal az információ visszakeresés hatékonyságát. Különösen fontos a mélyszemantikájú indexelés ezen tulajdonsága a többnyelvű információ visszakeresési rendszerknél, ahol más nyelven kívánunk adott lekérdezésre releváns dokumentumokat találni. Ekkor a szóegyezőségre aligha támaszkodhatunk, helyette azonban a mélyszemantikai indexelés módszere egy hatékony eszközt ad a kezünkbe ilyen többnyelvű korpuszok kezelésére. Mélyszemantikájú indexelés során a módszer azoknak a kontextusoknak a hasonlóságát vizsgálja, amelyekben egy adott szó előfordul. Ennek során egy redukált dimenziószámú jellemvonás tér (feature space) jön létre, amely egyrészt komplexitását tekintve alacsonyabb dimenziószámú, mint a klasszikus vektortérmodell, ahol a dimenziószám a korpuszban lévő egyedi szavak számával egyenlő, másrész olyan strukturát ad a kezünkbe, amellyel képesek vagyunk a szavak jelentései közötti viszonokat is hasznosítani. A módszer előnye, hogy thesaurus használat helyett a mélyszemantikájú indexelés külső szótár használata nélkül, mindig az aktuális tématerületű korpusz esetében képes automatikusan feltérképezni a szavak közötti jelentés viszonyokat. A mélyszemintákájú indexelés az eredeti vektortérbeli szó-dokumetum (TD) mátrixból indul ki, majd ezt dekompozicionálja k (tipikusan 200-300) ortogonális faktorra, amelyekből az eredeti mátrix közelíthető lineáris kombinációval. Ez a módszer felfedi a látens, mély szemantikai strukturáját az eredeti mátrixnak, amelynél a komplexitás növekményt zajnak tekintjük, vagy egy jelentés több szó formájában megtestesülő variálódásának. A mélyszemantikai indexelés (LSI) modelljében az egyedi szavak mint folytonos értékek szerepelnek a k dimenziós teret kifeszítő k darab ortogonális indexálási dimenzió mentén. Mivel az így kifeszített tér dimenziószáma kisebb, mint az eredeti vektortér dimenziója, így az egyedi szavak nyilvánvalóan nem lesznek függetlenek egymástól. Amennyiben két egyedi szót igen hasonló kontextusban fordul elő, akkor ezeknek hasonló vektoraik lesznek a redukált dimenziószámú LSI reprezentációban. Ezáltal lehetőség nyílik például a szinonímák automatikus kezelésére anélkül, hogy formálisan felépített külső thesaurusra kellene támaszkodnunk, ami esetleg nem is fedi le az adott korpusz szakterületének speciális szavaiból kialakuló szemantikai struktúrát. A mélyszemantikai indexelés tehát kihasználja, hogy a szavak és dokumentumok előfordulása egymástól nem független, azaz nem véletlenszerű az együtállásuk. Ez annak köszönhető, hogy a szavak és dokumentumok között implicit (látens) jenetésbeli, szemantikai öszefüggések vannak. Az LSI modell redukált dimenziószámú terében a dokumentumok reprezentációja maximális mértékű klaszterizációval történik. A TD mátrix által megtestesített vektortérhez képest ebben az LSI térben lévő dimenziók az egyedi szavak és a dokumentumok közötti rejtett szemantikai függőségi viszonyoknak a legjobb statisztikai reprezentációját adja. A módszer lényege a szinguláris érték dekompozíció (singular value decomposition, főkomponens dekompozíció) műveletében rejlik, amely hasonló a sajátérték dekompozícióhoz és a faktoranalízisben használt módszerhez. A szinguláris érték dekompozíció eredménye vektorok egy halmaza, amelyek rendre az egyes egyedi szavak és dokumentumok pozícióját reprezentálják a redukált k dimenziószámú térben. Információ visszakeresés során a lekérdező sztring által adott szavak azonosítanak egy pontot az LSI térben, gyakorlatilag arról van szó, hogy a lekérdezés az általa tartalmazott egyedi szavak helyvektorainak súlyozott vektoriális összege által meghatározott helyen fog elhelyezkedni. Ezt követően a dokumentumok rangsorolása a lekérdezés LSI térbeli helyzetéhez való közelségük alapján történik, tipikusan koszinusz távolsági mértékkel számítva. Míg a közönséges vektrotérmodell során az információ visszakeresés forgatókönyve kizárólag egy lekérdezésre adott rangsorolt dokumentum listát eredményez, addig az LSI modellben jóval több és sokszínűbb elemzésekre lehetőséget adó információ visszakeresési forgatókönyv lehetséges. Mivel az egyedi szavak és a dokumentumok is ugyan abban a térben helyezkednek el, így lehetőség nyílik azok tetszőleges kombinációjú összehasonlítására, úgymint egy egyedi szóhoz legközelebb eső dokumentumok, egy egyedi szóhoz legközelebb eső másik egyedi szavak, egy dokumentumhoz legközelebb eső egyedi szavak, és egy dokumentumhoz legközelebb eső dokumentumok kimutatására. A módszer szépsége ellenére érthető okok miatt nem terjedt el eddig ipari méretekben a szövegbányászati rendszerekben. Egyik hátrány a számításigényessége, a másik a polinómiák kezelésének kérdésessége, a harmadik pedig a szemantikai kapcsolatok alapestben hiányzó skálázottsága. Az LSI modell alkalmazása nem praktikus nagy dokumentum korpuszok felett, mivel túl számításigényes a műveletek elvégzése. Amennyiben az egyedi szavak és a dokumentumok száma eléri a 10.000-es nagyságrendet (ami korántsem számít soknak, ha figyelembe vesszük, hogy egy nyelv egy bizonyos tudományterületének dokumentumaiban előforduló egyedi szavainak száma 50.000 körüli), akkor a TD mátrix mérete körülbelül 10.000*10.000-es lesz, amelyre a szinguláris érték dekompozíció elvégzése napokig tart egy nagy teljesítményű munkaállomáson. Még a szinguláris érték dekompozíció algoritmusában történő radikális gyorsítások és a munkaállomások nagy iramú teljesítménynövekedése esetén sem várható a módszer alkalmazása igen nagy méretű korpuszok esetén. Egy M*N méretű mátrix szinguláris érték dekompozíciójának időbeli komplexitása O(mn2). Amennyiben új adatok kerülnek a reprezentációban, akkor vagy folyamatosan torzul a reprezentációs képessége az LSI térnek, vagy újra végre kell hajtani a számításigényes dekompozíciót, ami időhiány miatt kivitelezhetetlen nagy korpuszok esetében. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|