|
Szöveges információ visszakeresés Az információ visszakeresés annak tudománya, hogy adott információ tároló egységből hogyan hívjunk elő olyan információkat, amelyek a kereső szándékainak legjobban megfelnek. A szövegbányászatban szöveges információkra történő gyors rátalálás a cél, adott lekérdezés esetén. A történelmi előzmények ismertetése végett meg kell említeni az információ visszakeresés fontosabb múlbeli eseményeit. Első ismert példa az információ visszakeresés alkalmazására egy asszír király, Ashurbanipal esete (Sardanapalus és Asnappeer néven is említik görög írásokban, vagy Osnapper néven a Bibliában), aki már az időszámításunk előtti kb. 650-ben nem csak az információ tárolás fontosságát ismerte fel, hanem az információ visszakeresését is, ő kezdeményezte az első modern stílusúnak mondható, szinte érintetlen formában fennmaradt könyvtár kialakítását. Hozzávetőleg 30.000 kőtáblán, 1.200 szöveget tároltak a könyvtárban. Visszakereső rendszer hiányában csak úgy lehetne rátalálni egy kívánt dokumentumra, ha egyesével jóformán az összes szöveget átnéznénk. Ennek elkerülésére dolgoztatta ki az asszír király az első könyvtári visszakeresó módszert. Már a görög kulturában is megjelenik az információk visszakeresésének támogatása. Egyik korai ismert példa erre a szöveges információvisszakeresés támogatására a görög agyagtábla könyvtárakban alkalmazott kategorizálás, amely alapvető témák alapján sorolta be az egyes köteteket csoportokba, hogy a későbbi visszakereséseket megkönnyítsék. Majd Alexandriában, Egyiptomban Callimachus volt az, aki bevezette ezt a fajta kategorizálást az időszámításunk előtti harmadik században, az ún. kronológiai tárgykatalógust (Callimachus Pinakes). Az első igazán nagy kategorizálási projekt volt ez, amelynek során a teljes könyvtárban megtalálható könyveket összesen 120 könyvnyi kötetben tömörítették, indexálták. Nem véltelenül nevezik Callimachust a könyvtártudomány atyjának. Később, 1876-ban Dewey neve vált ismertté a könyvtári nyilvántartásokban széles körűen alkalmazott Dewey Decimal Classification rendszeréről. Dewey 10-es kategóriákba sorolta be a dokumentumokat, és minden kategóriának 10 alkategóriája volt egy bizonyos határig. Ezt a decimális módszert szemlélteti az alábbi ábra. 3*5 inch méretű katalógus index kártyákat készítettek, amin alapvető dokument információk voltak (cím, szerző, kiadó, téma), ezek segítették a könyvek visszakeresését. Az első teljesen automatizált szöveges visszakereső rendszert, melynek neve Key Word in Context (KWIC) volt, Hans Peter Luhn készítette (az információ visszakeresés atyja). Az információkat a számítógép lyukkártyákon kapta, és már stopszó eliminálást is tartalmazott. Az 1960-as években utána Gerard Salton készítette el a SMART (Salton’s MagicalAutomatic Retriever of Text) rendszert, amely sokáig szolgált az ezirányú kutatások alapjaként, és sok későbbi rendszer használta a benne alkalmazott módszereket. Az információ visszakeresés elsősorban az Internet rohamos bővülésével egyidőben vált kiemelten fontossá az 1990-es évek elejétől kezdődően. Információ visszakeresés esetében a felhasználó egy keresősztringet ad meg (ami lehet egy-két szavas szóösszetételtől kezdve egy egész dokumentum is) egy kereső felületen, és a teljes web korpusz azon dokumentumait várja el a találati listában, amelyek megfelelnek az beírt keresősztringnek, azzal nagy mértékben egyeznek. Kezdetleges keresőmotorok csak a beírt szavak hasonlóságát veszik figyelembe adott dokumentumok mérlegelésekor. Fejlettebb keresőmotorok képesek tanulni, és a felhasználó érdeklődési körére fókuszálva adaptáltan végrehajtani a kereséseket. A szövegbányászat során kiemelten fontos szerepet kapnak az információ visszakeresési rendszerek. Az információ visszakeresési modell az alábbiak szerint épül fel: A felhasználók információ keresési szándéka abból fakad, hogy valamilyen információ hiánnyal küzdenek. Ez az információ hiány motiválja a felhasználókat arra, hogy az információ visszakereső rendszereket használják. Az információ hiányának tünete még nem biztos, hogy azt is jelenti, hogy tudja is az illető személy, hogy miféle információra van szüksége. Tehát sokszor nem tudjuk, hogy mit is keresünk. Ha valaki a legfejlettebb spektrális szövegbányászati rendszerről szeretne információkat gyűjteni, akkor maximum ennyit tud beírni a keresőprogramnak, magát a szoftver nevét nem. Ugyanakkor a felhasználó számára a keresés folyamán is egyre jobban körvonalazódik, hogy mit is keres valójában, így az információ visszakeresés egy meglehetősen iteratív kommunikációs folyamat a felhasználó és az információ visszakeresési rendszer (IR (information retrieval system) között. Miután az információs hiány tudatosult a felhasználóban, ki kell fejeznie az információ keresésre irányuló szándékát. Ezt vagy egy információs ügynökséges, vagy egy könyvtárban, vagy egy internetes keresőprogramban teheti meg többek között. Ezt reprezentálja a fenti ábrában a köztes médium logikai egység. A harmadik stádiumban a keresési stratégia megfogalmazása történik az információkereső részéről. Ez a lépés sokszor ki is marad vagy nem tudatosul, amennyiben egyszerű információvisszakeresésről van szó. Kifinomultabb kereséseknél azonban például az információ specialisták átgondolják azt a keresési stratégiát, amit a legcélravezetőbbnek tartanak. A negyedik lépés a lekérdezés megfogalmazása. Ennek során a felhasználó szövegesen formába önti azt, hogy a keresése milyen területre irányul. Ez történhet parancssorok megadásával vagy osztályozási kódok megadásával is, azonban a fejlett szövegbányászati rendszerekben egyre inkább törekszünk a természetes nyelvi lekérdezések megértésére és feldolgozására. Egy lekérdezésnek alapvetően két fontos komonense van:
Az ötödik lépésben az információ visszakeresési rendszerben megtörténik a lekérdezés feldolgozása. Ennek során a szövegbányászati rendszer interpretálja a lekérdező sztringet vagy dokumentumot. Az interpretáció lehet teljesen egyszerű, amikor kizárólag a keresőszavakra, illetve azok logikai kapcsolatára terjed ki az értelmezés. Azonban fejlettebb interpretációs képességű szövegbányászati rendszerek más ismeretekre is támaszkodnak, például tezaurusz szótárakra, ismert felhasználói preferenciákra, stb, és ezekkel a tényezőkkel még kibővítik az értelmezés hatókörét. A szövegbányászati rendszerben a lekérdezés interpretálása két lépésben történik. Elsőként a lekérdezést a lekérdezés menedzser modul lefordítja keresési paraméterekre. Ez a lefordítási aktus a gép részéről sok esetben döntéseket igényel, különösen akkor, ha természetes nyelvi lekérdezést hajtunk végre. A paraméterek ismeretében ezt követően az adat menedzser modul végrehajtja az információ visszakeresési lépéseket, magát a lekérdezést, és az azt követő találati rangsorolást.
|
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|