|
A szövegbányászat kialakulását motiváló tényezők Az Interneten elérhető óriási mennyiségű dokumentum állomány jelenléte motiválta elsősorban a szövegbányászat létrejöttét, hiszen az emberiség tudásának jelentős része fellelnető az Interneten, nem kis lehetőséget kínálva azoknak, akik ezzel megfelelően élni tudnak. Napjaink tudástársadalmában az Információ és a tudás az üzleti életben is kritikus sikertényezőnek számít. Az Interneten elérhető dokumentumokból történő tudáskinyeréshez hasonlóan, a nagyvállalati környezetben előforduló dokumentum menedzsment és tudás kinyerés is a szövegbányászat területéhez tartozik. Azoknál a tudásintenzív szervezeteknél, ahol hatékonyan megoldott a strukturálatlan dokumentumok intelligens gépi feldolgozása, a tudásreprezentáció és az ismeretkinyerés, ott kiváló esély nyílik arra, hogy ezzel oly módon tudjanak élni, ami nem csak profit tényezőként jelenik meg, hanem a társadalmi jóléthez is képes pozitívan hozzájárulni. A számítási kapacitás napjainkban történő rohamos növekedése, valamint a mesterséges intelligencia tárgyköréhez tartozó szövegbányászati és gépi tanulási módszerek nagy ütemű fejlődésének köszönhetően az intelligens szövegbányászati tevékenységet elérhetővé és kivitelezhetővé tette. Társadalmunk tudástársadalommá történő átalakulása és az üzleti szféra versenyző jellege együttesen szükségessé tette a szövegbányászati módszerek mindennapi alkalmazását. A szövegbányászat kialakulásánál meg kell említeni, hogy először az orvostudományhoz és a bioinformatikához kapcsolódó szövegbányászati alkalmazások terjedtek el. Hasonlóan ahogy annak idején az első szakértői rendszereket is elsősorban orvosi környezetben fejlesztették ki és alkalmazták (pl. betegség tünetekből a diagnozis felállítására (lásd pl. a Stanford egyetemen az 1970-es években kifejlesztett MYCIN rendszert)), úgy a szövegbányászat kialakulásához is nagymértékben hozzájárult az orvos társadalom. Ilyen terület pl. a protein lánc kutatás, amely óriási kezdeti lökést adott a szövegbányászati kutatásoknak. Szintén kezdeti alkalmazásoknak számítanak a hírszerzési hivatalok (pl. CIA (USA), MI6 (Anglia)) kezdeti rendszerei az 1980-as évekből, amelyek azonban még a számítási kapacitás hiányával küszködtek, és kis teljesítményű hardvereken tudták csak őket futattni, ebből adódóan hozadékuk sem volt összemérhető a mai szövegbányászati rendszerekével. Napjainkban tudásmenedzsment egyik jelentős eszköze lett a szövegbányászat éppen azért, mert ezáltal lehetőség nyílik rejtett ismeretek feltárására nagy méretű szöveges adatbázisokból, amelyek növelhetik egy adott szervezet tudásvagyonát. A tudásmenedzsmentben elsősorban a tudás gépi úton történő teremtésével, felfedezésével kap szerepet a szövegbányászat. Szövegbányászati szempontból a mesterséges intelligencia és gépi tanulás egyik kitüntetett irány a számítógépes nyelvészet (vagy természetes nyelvi feldolgozás). Ennek eredményei igen jelentős mértékben jelen vannak a szövegbányászati módszerekben (pl. automatikus kulcsszó generálás, szöveg tömörítés, azonos címkéjű szószerkezetek megtalálása (pl. nevek, címek, álláshirdetések, stb.), szótövezés, rövidítés feloldás, stb.). Ezek elsősorban az ún. információ kinyerés módszereihez tartoznak. A szövegbányászati rendszerek generalizációs és tanulási képességeit a gépi tanulás és statisztikai tanulási módszerek alapozták meg. A többváltozós matematikai statisztika eredményei is jelentős mértékben hozzájárultak a fejlett szövegbányászati módszerek kialakulásához. Ilyen eredmények pl. a klaszter analízis számtalan klaszterizáló algoritmusa, a regresszióanalízis, a kernel függvényekkel történő valószínűségi eloszlások becslése (lásd pl. probabilisztikus neurális hálók), a többváltozós együttes feltételes valószínűségi eloszlások kezelése Bayes hálókkal, stb. Hasonlóan fontos terület a szövegbányászat esetében a gépi tanulási módszerek és eredmények. Ez a terület járult hozzá az olyan tanuló algoritmusok megszületéséhez, mint az ID3 algoritmus és változatai, az idnuktív tanulás, statisztikai tanulás, stb. Az információelmélet lehetővé tette az olyan fogalmak szövegbányászat területére történő bevezetését, mint az entrópia (Shannon) és a különböző szövegmetrikák. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|