|
Bevezetés - Mi a szövegbányászat? A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezetnációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt. Az egyszerű szöveges keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciáju találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelékezésre álló dokumentum állományban (korpuszban), csak indirekt módon, rejtve, látensen. Ettől függetlenül a teljes szövegű keresés is a szövegbányászat része, azonban látni kell, hogy a szövegbányszat a keresésnél jóval többet jelent, hasonlóan ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél. A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. A tudásmenedzsment fontosságát belátó és megértő nagyvállalatok egyre jobban tisztában vannak a szövegbányászat által nyújtott előnyökkel. Az online üzleti hírszerzés, a célorientált online hírfigyelés, a blog elemzés és hasonló kezdeményezések mind a szövegbányászat eredményeire építenek. A cél: automatikus ismeret kinyerés a további döntéshozatali lépések támogatására. Az szövegbányászat a mesterséges intelligencia azon eredményeit képes hadrafogni, amelyek a gépi tanulás, a statisztikai tanulás, az ismeret kinyerés, a szöveg klaszterizálás, tartalom kiemelés, morfológiai és szemantikai elemzés stb. területeken már rendelkezésre állnak, és üzletileg is hasznosíthatóak. Az Internet és a folyamatosan és dinamikusan növekvő strukturálatlan szöveges tartalommal feltöltött vállalati intranetek elengedhetetlenné teszik a szövegbányászati módszerek alkalmazását azok számára, akik lépést kívánnak tartani a tudásmenedzsment által diktált tempóval, és élni kívánnak a szövegbányászat adta üzleti előnyökkel, amiket méltán sorolhatunk mára a kritikus üzleti sikertényezők közé. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|