|
A szótövezés olyan szavak szótőre redukálását jelenti, amelyek valamilyen jelentésmódosító ragot, toldalékot, prefixet vagy suffixet kaptak. Szövegbányászati szempontból sokszor az ilyen szavak között nem teszünk különbséget. Pl. a “molekula”, “molekulák”, “molekulákat”, molekuláját”, stb. szavak szövegbányászati szempontból azonosnak tekinthetők. Ekkor végrehajtható rajtuk a szótövezés művelete, amely ezeknek a szóvariánsoknak az eredeti, ős alapkját adja vissza, jelen esetben ez a “molekula” szó lesz. A szótövezés különösen fontos a ragzó nyelvek, így pl. a magyar nyelv esetében, ahol a ragok vagy egyéb toldalékok az eredeti szóhoz hozzátapadnak. Ekkor ugyanis ugyan annak a szónak igen sok variánsa előfordulhat, amelyeket a szőtövezés folyamán mind egy közös őshöz kell visszavezetni. A szótövezés eredményeként a korpuszban figyelembe vett egyedi szavak száma csökken, hiszen adott szóvariánsokat a szótövükkel, szó ősükkel helyettesítünk. A szótövezés folyamán szabályok alkalmazása történik sztringekre. A szabályok feltétel-következmény formájában, azaz ha-akkor szabályok listájaként vannak megadva. Előfordulhat végrehajtási sorrendbeli különbözőség az egyes szabályok végrehajtásánál, amit figyelembe kell venni, ugyanis bizonyos szabályok bemenetei építhetnek korábbi szabályok kimeneteire, amennyiben adott prefixeket vagy szuffixeket több lépésben lehet csak eltávolítani. Nem csak törlés, hanem természetesen karakter sztring csere is elképzelhető a szótövezés során. Angol nyelven az alábbi szótövező algoritmusok a legelterjedtebbek:
|
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|