Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Szótövezés

A szótövezés olyan szavak szótőre redukálását jelenti, amelyek valamilyen jelentésmódosító ragot, toldalékot, prefixet vagy suffixet kaptak. Szövegbányászati szempontból sokszor az ilyen szavak között nem teszünk különbséget. Pl. a “molekula”, “molekulák”, “molekulákat”, molekuláját”, stb. szavak szövegbányászati szempontból azonosnak tekinthetők. Ekkor végrehajtható rajtuk a szótövezés művelete, amely ezeknek a szóvariánsoknak az eredeti, ős alapkját adja vissza, jelen esetben ez a “molekula” szó lesz. A szótövezés különösen fontos a ragzó nyelvek, így pl. a magyar nyelv esetében, ahol a ragok vagy egyéb toldalékok az eredeti szóhoz hozzátapadnak. Ekkor ugyanis ugyan annak a szónak igen sok variánsa előfordulhat, amelyeket a szőtövezés folyamán mind egy közös őshöz kell visszavezetni. A szótövezés eredményeként a korpuszban figyelembe vett egyedi szavak száma csökken, hiszen adott szóvariánsokat a szótövükkel, szó ősükkel helyettesítünk. A szótövezés folyamán szabályok alkalmazása történik sztringekre. A szabályok feltétel-következmény formájában, azaz ha-akkor szabályok listájaként vannak megadva. Előfordulhat végrehajtási sorrendbeli különbözőség az egyes szabályok végrehajtásánál, amit figyelembe kell venni, ugyanis bizonyos szabályok bemenetei építhetnek korábbi szabályok kimeneteire, amennyiben adott prefixeket vagy szuffixeket több lépésben lehet csak eltávolítani. Nem csak törlés, hanem természetesen karakter sztring csere is elképzelhető a szótövezés során. Angol nyelven az alábbi szótövező algoritmusok a legelterjedtebbek:

  • Paice/Husk szótövező algoritmus
  • Porter szótövező algoritmus
  • Lovins szótövező algoritmus
  • Dawson szótövező algoritmusa
  • Krovetz szótövező algoritmusa.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com