Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Újdonság detekció szöveges korpuszokban

Az újdonság detekció (novelty detection) a szövegbányászat szempontjából két szöveges korpusz (vagy egyszerűen csak dokumentum) közötti különbséget, az újdonság számba menő ismeretet hivatott felismerni és kinyerni. Kiemelten kutatott gépi tanulással kapcsolatos mesterséges intelligencia terület. A módszer jelentősen épít a nevesített entitás felismerésre. Az újdonság detekció azért kiemeleten fontos megoldandó feladat a szövegbányászat területén, mert a dokumentumok általában adott információmennyiséget redundánsan tárolnak. Több esetben több dokumentum nagy átfedésekkel ugyanazt az ismeretanyagot tárolja, ekkor célunk a redundanciamentes, pusztán új ismereteket tartalmazó tudásanyag felépítése. Nagyvállalati környezetben a dokumentumok úgynevezett verzió láncokat alkotnak, ebben az esetben minden újabb verzió tartalmazhat valami csekély új információt, amivel a már felépített tudásbázist és szakértői rendszerünket frissíteni kell. Az információ visszakeresés területén a trend egyre inkább affelé mutat, hogy a felhasználó nem dokumentumokat kíván a találati listában kapni (hiszen temérdek dokumentum akár ugyan azt az információt is tartalmazhatja), hanem ismeretet szeretne, megtisztított, tömörített, rendszerezett, strukturált ismeretet. Ehhez pedig meg kell oldani a szövegbányászat eszköztárára támaszkodva az újdonságdetekciót, és ismeret tömörítést, lényegkiemelést.

Az újdonságdetekciós módszerek esetében ügyelünk arra, hogy a szövegbányászati rendszer képes tolerálni a szövegekben lévő, zajnak tekinthető, kevésbé fontos információkat, azaz kellően robosztus legyen. További elvárás az újdonságdetekció esetében, hogy a rendszer magas fokon képes legyen a generalizációra, azaz olyan esetekben is tudjon döntést hozni, amely esetekre nem lett betanítva, azaz korábbi tanító fázisokban nem került sor. A fejlett módszerek elsősorban a hipotéziselmélet és a feltételes valószínűség elmélet eredményeire építenek.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com