|
A stopszó eliminálás azt eredményezi, hogy az eredményül visszamaradó korpusz csak számunkra releváns szavakat tartalmaz. A stopszó eliminálás során olyan gyakori és gyakorlatilag releváns jelentéssel nem bíró szavak kigyűjtése és korpuszból történő kitörlése történik meg, amelyek általában minden dokumentumban jelen vannak, nem hordozva ezáltal dokumentum specifikus jelentést. Tipikusan ilyen szavak a névelők (a, az), névutók, névmások, kötöszavak, kérdőszavak, stb., tehát az olyan gyakran előforduló szavak, amelyek csak megnehezítenék a tudáskinyerés folyamatát. Ezekre a szavakra átalában nincs különösebb értelme rákeresni, ezért sok szövegbányászati rendszer elsősorban a hatékonyság növelésétől vezérelve nem tárolja el őket. Szövegbányászati előfeldolgozásnak tekinthető tehát ezen stopszavak kigyűjtése. Általában a stopszavak kigyűjtése egy stopszó lista használatával töténik. Amennyiben egy szó benne van a stopszó listában, akkor azt a szót töröljük a korpuszból. A stopszó lista előállítása történhet például a TFIDF súlyozási formula segítségével, amely minden szóra megdja az adott szó korpusz feletti fontossági súlyát. Ezt követően az első N darab legkisebb súlyú szót áttehetjünk a stopszó listába. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|