Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Stopszó eliminálás

A stopszó eliminálás azt eredményezi, hogy az eredményül visszamaradó korpusz csak számunkra releváns szavakat tartalmaz. A stopszó eliminálás során olyan gyakori és gyakorlatilag releváns jelentéssel nem bíró szavak kigyűjtése és korpuszból történő kitörlése történik meg, amelyek általában minden dokumentumban jelen vannak, nem hordozva ezáltal dokumentum specifikus jelentést. Tipikusan ilyen szavak a névelők (a, az), névutók, névmások, kötöszavak, kérdőszavak, stb., tehát az olyan gyakran előforduló szavak, amelyek csak megnehezítenék a tudáskinyerés folyamatát. Ezekre a szavakra átalában nincs különösebb értelme rákeresni, ezért sok szövegbányászati rendszer elsősorban a hatékonyság növelésétől vezérelve nem tárolja el őket. Szövegbányászati előfeldolgozásnak tekinthető tehát ezen stopszavak kigyűjtése.

Általában a stopszavak kigyűjtése egy stopszó lista használatával töténik. Amennyiben egy szó benne van a stopszó listában, akkor azt a szót töröljük a korpuszból. A stopszó lista előállítása történhet például a TFIDF súlyozási formula segítségével, amely minden szóra megdja az adott szó korpusz feletti fontossági súlyát. Ezt követően az első N darab legkisebb súlyú szót áttehetjünk a stopszó listába.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com