Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Bevezetés - Mi a szövegbányászat?

A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezetnációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt.

Az egyszerű szöveges keresésnél jóval többet hivatott nyújtani a szövegbányászat. Míg szöveges keresés esetében meglévő információkra kívánunk kis időbefektetéssel rátalálni (nagy relevanciáju találati eredmények által), addig a szövegbányászat során olyan tudásra, ismeretekre is szert kívánunk tenni, ami explicite nem volt benne a rendelékezésre álló dokumentum állományban (korpuszban), csak indirekt módon, rejtve, látensen. Ettől függetlenül a teljes szövegű keresés is a szövegbányászat része, azonban látni kell, hogy a szövegbányszat a keresésnél jóval többet jelent, hasonlóan ahogy az adatbányászat is jóval többet jelent az egyszerű adatkeresésnél. A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol elsősorban számszerű adatok feldolgozása történik intelligens gépi módszerekkel. Az adatbányászat azon eredményeit, amelyek minták felismerésére, adatreprezentációra, előrejelzésre, statisztikai összefüggések kimutatására vonatkoznak, a szövegbányászat is nagymértékben hasznosítja. A különbség abban mutatkozik, hogy míg adatbányászat esetében jól strukturált számszerű adatokkal dolgozunk, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot.

A tudásmenedzsment fontosságát belátó és megértő nagyvállalatok egyre jobban tisztában vannak a szövegbányászat által nyújtott előnyökkel. Az online üzleti hírszerzés, a célorientált online hírfigyelés, a blog elemzés és hasonló kezdeményezések mind a szövegbányászat eredményeire építenek. A cél: automatikus ismeret kinyerés a további döntéshozatali lépések támogatására. Az szövegbányászat a mesterséges intelligencia azon eredményeit képes hadrafogni, amelyek a gépi tanulás, a statisztikai tanulás, az ismeret kinyerés, a szöveg klaszterizálás, tartalom kiemelés, morfológiai és szemantikai elemzés stb. területeken már rendelkezésre állnak, és üzletileg is hasznosíthatóak.

Az Internet és a folyamatosan és dinamikusan növekvő strukturálatlan szöveges tartalommal feltöltött vállalati intranetek elengedhetetlenné teszik a szövegbányászati módszerek alkalmazását azok számára, akik lépést kívánnak tartani a tudásmenedzsment által diktált tempóval, és élni kívánnak a szövegbányászat adta üzleti előnyökkel, amiket méltán sorolhatunk mára a kritikus üzleti sikertényezők közé.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com