|
A nevesített entitás felismerés (named entity recognition) egy ismeret kinyerési módszer a szövegbányászati rendszerekben. Nevesített entitásoknak nevezzük az olyan szavakat, illetve szó csoportokat, amelyeket valamilyen meghatározott címkével illethetünk. Ekkor a célunk egyrészt az összes olyan entitás megtalálása a teljes korpuszban, amelyekre az adott címke illik, másrészt az ilyen entitásokkal kapcsolatos információk kinyerése, adott információk kapcsolatba hozása és a kapcsolat típusának megállapítása a nevesített entitásokkal. Ilyen entitások leggyakrabban személynevek, cégnevek, címek, időpontok, helyszínek, árak, stb. tehát olyan szöveges komponensek, amelyek ilyen és hasonló címkékkel illethetünk. Az ismeret kinyerés ilyen vonatkozásban azt jelenti, hogy előre definiált logikai entitásokat, és az azokkal kapcsolatban álló szöveges egységeket keresünk a teljes korpuszban. A feladat a természetes nyelvi felismerés eszköztárát igényli, továbbá komoly szemantikai hátteret (pl. szinoníma szótár), mert az entitások felismerése ezekre támaszkodik leginkább. Másik támpont az entitások szintaktikai megjelenése (pl. címben szerepel az utca vagy u., egy vagy több szám, irányítószám, stb.). Ez utóbbit az ún. conditional random fields, hiddem markov model és parsing window módszerekkel lehetséges megoldani. Kiemelten fontos az entitás detekció (nevesített entitás felismerés) az internetes web bányászatban (web mining), például online kompetenciafigyelés esetében, célzott hírfigyelés esetében, állásajánloatok automatizált keresésekor, stb. A nevesített entitásokat nem tartalmazza semmilyen szótár, mivel számuk elképzelhetetlenül nagy lehet. Gondoljunk bele, hogy csupán címekből az interneten csillagászati számú bejegyzés található. További kihívás, hogy folyamatosan változnak egy-egy szövegkörnyezetben az entitások, így permanens nyilvántartásuk nem lehetséges. Az is kihívást jelent, hogy az entitások más-más formában jelenhetnek meg (pl. ugyan azt a címet több formátumban is rögzíthetjük), és ezen eltérő formátumok tipizálása igen nehéz vagy lehetetlen. Sok esetben a rövidítések is általánosak egy-egy entitás esetében, és a rövidítések formája, az érintett szavak köre és sorrendje is változhat. A fenti okok miatt kivitelezhetetlen egyedi nyilvántartás helyett típusokat (címkéket) definiálunk, és az adott szöveges állományon keresés útján határozzuk meg, hogy megy szövegrészekre illenek az előre definiált címkék. A nevesített entitás felismerést az alábbi esetekben használja a szövegbányászat:
Naiv megközelítésben egy lehetséges módszer a nevesített entitások felismerésére a szövegbányászati rendszerekben a formális, definitíve meghatározott szabályok keresése, és alkalmazása a szövegben (pl. a nevek mindig nagy betűkkel kezdődnek, az irányítószám mindig 4 betűs, stb.). Ezen szabályok alkalmazhatósága azonban igen gyorsan és kevés problémára megoldást adva kimerül. A fejlettebb szövegbányászati rendszerek esetében már döntési fa, parsing window, hidden Markov model, statisztikai összefüggések, feltételes valszínűségi modellek, maximum entrópia modellek alkalmazásával oldjuk meg a nevesített entitás felismerés jelentette kihívásokat. |
|
|
(C) 2006 VÁZSONYI
Informatikai és Tanácsadó Kft. http://www.vazsonyi.hu http://www.vazsonyi.com Adószám: 13641023-2-03 E-mail: contact@vazsonyi.com |
|