|
Automatikus kulcsszó kigyűjtés A szövegbányászati előfeldolgozások fontos eleme az index szavak kigyűjtése. Szoros kapcsolatban áll ez a művelet a stopszó eliminálással, ebben az esetben azonban csak kevés számú, az adott dokumentum esetében gyakorlatilag legnagyobb mértékben jellemző kulcsszavait őrizzük meg. Ez a művelet nagy dokumentumok rövid, kulcsszó alapú összefoglalására alkalmas, továbbá redukált dimenziószámú dokumentum klaszterizációra. Általánosan megfigyelhető, hogy az egyes dokumentumok esetében a legnagyobb gyakorisággal megjelenő szavak általában nem kulcsszavak, hanem ezek leginkább stopszavak. Ugyanakkor az adott dokumentumban csak egyszer-kétszer megjelenő szavak viszont annyira speciálisak, hogy azok sem tekinthetők kulcsszavaknak, ezek leginkább valamilyen különös megülönböztetést adó jelzők, vagy ritkán használatos szavak, melléknevek, stb. A kucslszavakat valahol ennek a gyakorisági skálának a köztes részében kell keresnünk, ami a pusztán TFIDF súlyozásos szelekciónál jóval bonyolultabb feladat. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|