Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Automatikus kulcsszó kigyűjtés

A szövegbányászati előfeldolgozások fontos eleme az index szavak kigyűjtése. Szoros kapcsolatban áll ez a művelet a stopszó eliminálással, ebben az esetben azonban csak kevés számú, az adott dokumentum esetében gyakorlatilag legnagyobb mértékben jellemző kulcsszavait őrizzük meg. Ez a művelet nagy dokumentumok rövid, kulcsszó alapú összefoglalására alkalmas, továbbá redukált dimenziószámú dokumentum klaszterizációra. Általánosan megfigyelhető, hogy az egyes dokumentumok esetében a legnagyobb gyakorisággal megjelenő szavak általában nem kulcsszavak, hanem ezek leginkább stopszavak. Ugyanakkor az adott dokumentumban csak egyszer-kétszer megjelenő szavak viszont annyira speciálisak, hogy azok sem tekinthetők kulcsszavaknak, ezek leginkább valamilyen különös megülönböztetést adó jelzők, vagy ritkán használatos szavak, melléknevek, stb. A kucslszavakat valahol ennek a gyakorisági skálának a köztes részében kell keresnünk, ami a pusztán TFIDF súlyozásos szelekciónál jóval bonyolultabb feladat.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com