Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Szövegbányászat az Interneten (web bányászat)

Az internetes szövegbányászat (web mining) és annak a szövegbányászati tevékenységeket érintő kihívásai külön fejezetet érdemelnek jelen szövegbányászatról szóló könyvben. Az Internet az 1980-as évek második felétől számított megjelenése óta folyamatosan motiválta és magával húzta a szövegbányászat irányú kutatásokat. Az Internet rohamos elterjedése nagymértékben hozzájárult a szövegbányászat, a szöveges információ visszakeresés és automatikus ismeret kinyerés tudományterületek rohamos fejlődéséhez. Az Internet jelenleg is közel exponenciális ütemben növekszik, így intenzív húzó hatása továbbra is érezhető. Az Interneten elérhető szöveges dokumentumok száma roppant módon megszaporodott, és a tendencia egyre jobban érvényesül. Ezzel egyidőben a szöveges dokumentumok iránti igény is jelentősen megnőtt. Korunkat az információs társadalom tudástársadalommá történő kiteljesedéseként élhetjük meg. Az emberek és egyéb szervezetek információ– és tudás éhsége csillapíthatatlannak tűnik. Nap-mint-nap igényeljük a friss információkat, kimutatásokat, összefoglalókat, elemzéseket. Az Internet a szöveges dokumentumok egy óriási strukturálatlan tárháza. Strukturálatlanságából adódóan reális az igény az olyan modern szövegbányászati módszerekre, amelyek képesek megbirkózni a szövegek mennyiségével és azok strukturálatlan jellegével, és ezek leküzdésével képesek hatékonnyá tenni az emberi hozzáférést a szöveges információkhoz és ismeretanyaghoz. A szükséges internetes szövegbányászati módszereknek hatékony szövegtárolási, -visszakeresési és feldolgozási potenciállal kell rendelkezniük. A kihívás kisebb skálás már egy nagyobb vállalati intranet esetében is megjelenik, amikor a vállalati személyzetet kell tudni kiemelkedően hatékony módon ellátni releváns információkkat. A tudás ugyanis napjainkra a legértékesebb erőforrás lett. A tudásintenzív iparágakban a tudásmenedzsment fontosságát felismerő cégek versenyelőnyre tesznek szert. A tudás, mint nyersanyag megszerzéséhez a hatékony szövegbányászati rendszereken keresztül vezet az út. Üzleti szempontból az Internet a szövegbányászati rendszerek nyersanyagainak kimeríthetetlen lelőhelye. Üzleti hírszerzést, konkurencia figyelést, hírfigyelést, és hasonló, egyre nagyobb üzleti értékkel bíró funkciókat látnak el szövegbányászati alkalmazások.

Az online szövegbányászati rendszerek szempontjából az Internet egy kihívásokkal teli platform. A kihívások az Internet jellegéből, felépítéséből, struktúrájából adódnak. A legfontosabb ilyen kihívások az alábbiak.

Eloszott adatstruktúra. Az Interneten az adatok fizikailag más-más helyen lelhetőek fel, ezeket egységesen kell kezelni, függetlenün forrásuktól. A szöveges információk nemcsak rengeteg fizikai hely felett oszlanak el, de más-más formátumban, más-más operációs rendszren és más-más időben érhetőek el. Az Interneten jelen lévő információtároló szerverek egy előre meg nem határozott, önszerveződő struktúrájú kapcsolatban állnak egymással. A hálózati topológia ráadásul dinamikusan változik, az adatátviteli sávszélességek, rendelkezésre állási idők, megbízhatóságok, hitelességek, stb. mind-mind hozzájárul ahhoz, hogy az online szövegbányászat egy turbulensen változó környezetben kénytelen megvalósítani céljait. Az alosztott adatstruktúra tehát egy olyan kihívás, amit a szövegbányászati tevékenység során mindenképpen le kell küzdeni.

Változó tartalmak. Az Interneten elérhető tartalom egy része egyik pillanatról a másikra eltűnhet (mert például lekapcsolnak egy szervert a hálózatról), vagy új tartalmak keletkezhetnek egy pillanat alatt, meglévő tartalmak módosulhatnak, stb. Becslések szerint az Interneten elérhető tartalom 40%-a legalább havi rendszerességgel módosul, változik. Ebbe a kategóriába tartozó kihívás a tartalmak elköltözése egyik helyről a másikra, hiszen ekkor az eredeti helyre mutató linkek nagy száma válik használhatatlanná.

Óriási méretek. Az interneten tárolt szöveges információk óriási méreteket öltenek. Egyik, fizikailag egy helyen lévő adatbázis sem látott még akkora szöveges adattömeget, amely az Interneten jelen van elosztott struktúrában. Ekkora méreteknél már komoly kérdéssé válik a szövegek feldolgozásának sebessége. A jelenlegi méret ráadásul exponenciális ütemben folyamatoan nő.

Redundáns és struktúrálatlan szövegek. Az Interneten elérhető szövegek egyrésze több példányban jelen van a hálózaton, redundánsan, tükrözve. Az egyes példányok sok esetben más-más formátumban jelennek meg, előre definiált struktúra nélkül. Becslések szerint az Interneten jelen lévő szöveges állományok 30%-a közel azonos információtartalmú.

Ellenőrizhetetlen adatminőség. Az Internet egy új publikációs lehetőséget biztosító médium lett. Szerkesztői feladatokat senki nem végez, az új szöveges tartalmak cenzúra és szervezési lépések megtétele nélkül kerülnek ki a webre mindenki számára elérhető módon. Ebből kifolyólag egyes szövegek nem feltétlen erik el a megfelelő minőséget (például mert már elavultak vagy valótlan állításokat közölnek, stb.), szegényes stílusban íródtak, hibák sokaságát tartalmazzák, stb.

Heterogén adattípusok. Az Interneten elérhető szöveges tartalmak változó típusú dokumentumként jelennek meg, így az online szövegbányászati rendszereknek sok formátummal, nyelvvel és más-más karakterkészlettel kell megbirkózniuk. Legelterjedtebb formátumoknak a HTML, XML, ASCII TXT és PDF dokumentumok tekinthetőek.

A fent említett kihívások várhatóan nem csillapodni, hanem vélhetően erősödni fognak, folyamatosan sarkallva ezáltal a szövegbányászati rendszerek alkalmazkodóképességének és hatékonyságának növekedését. Nem várható például, hogy az Interneten lévő nyelvek száma csökkenjen, hogy a struktúra rendeződjön, hogy a tartalmak fizikailag egy helyen legyenek elérhetőek. Ezek nyilván hiú ábrándok. Ebből adódóan a szövegbányászati rendszerek is folyamatos fejlődésre vannak ítélve még egy jó ideig biztosan.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com