Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Nevesített entitás felismerés

A nevesített entitás felismerés (named entity recognition) egy ismeret kinyerési módszer a szövegbányászati rendszerekben. Nevesített entitásoknak nevezzük az olyan szavakat, illetve szó csoportokat, amelyeket valamilyen meghatározott címkével illethetünk. Ekkor a célunk egyrészt az összes olyan entitás megtalálása a teljes korpuszban, amelyekre az adott címke illik, másrészt az ilyen entitásokkal kapcsolatos információk kinyerése, adott információk kapcsolatba hozása és a kapcsolat típusának megállapítása a nevesített entitásokkal. Ilyen entitások leggyakrabban személynevek, cégnevek, címek, időpontok, helyszínek, árak, stb. tehát olyan szöveges komponensek, amelyek ilyen és hasonló címkékkel illethetünk. Az ismeret kinyerés ilyen vonatkozásban azt jelenti, hogy előre definiált logikai entitásokat, és az azokkal kapcsolatban álló szöveges egységeket keresünk a teljes korpuszban. A feladat a természetes nyelvi felismerés eszköztárát igényli, továbbá komoly szemantikai hátteret (pl. szinoníma szótár), mert az entitások felismerése ezekre támaszkodik leginkább. Másik támpont az entitások szintaktikai megjelenése (pl. címben szerepel az utca vagy u., egy vagy több szám, irányítószám, stb.). Ez utóbbit az ún. conditional random fields, hiddem markov model és parsing window módszerekkel lehetséges megoldani. Kiemelten fontos az entitás detekció (nevesített entitás felismerés) az internetes web bányászatban (web mining), például online kompetenciafigyelés esetében, célzott hírfigyelés esetében, állásajánloatok automatizált keresésekor, stb.

A nevesített entitásokat nem tartalmazza semmilyen szótár, mivel számuk elképzelhetetlenül nagy lehet. Gondoljunk bele, hogy csupán címekből az interneten csillagászati számú bejegyzés található. További kihívás, hogy folyamatosan változnak egy-egy szövegkörnyezetben az entitások, így permanens nyilvántartásuk nem lehetséges. Az is kihívást jelent, hogy az entitások más-más formában jelenhetnek meg (pl. ugyan azt a címet több formátumban is rögzíthetjük), és ezen eltérő formátumok tipizálása igen nehéz vagy lehetetlen. Sok esetben a rövidítések is általánosak egy-egy entitás esetében, és a rövidítések formája, az érintett szavak köre és sorrendje is változhat. A fenti okok miatt kivitelezhetetlen  egyedi nyilvántartás helyett típusokat (címkéket) definiálunk, és az adott szöveges állományon keresés útján határozzuk meg, hogy megy szövegrészekre illenek az előre definiált címkék.

A nevesített entitás felismerést az alábbi esetekben használja a szövegbányászat:

  • Ismeret kinyerés
  • Összefoglalás (kivonat) generálás
  • Gépi automatikus fordítás idegen nyelvek között
  • Dokumentum klaszterizáció és csoportosítás
  • Automatikus indexálás
  • Flexibilis keresése (pl. helyszínnel, időponttal bővíthetőség lehetősége).

Naiv megközelítésben egy lehetséges módszer a nevesített entitások felismerésére a szövegbányászati rendszerekben a formális, definitíve meghatározott szabályok keresése, és alkalmazása a szövegben (pl. a nevek mindig nagy betűkkel kezdődnek, az irányítószám mindig 4 betűs, stb.). Ezen szabályok alkalmazhatósága azonban igen gyorsan és kevés problémára megoldást adva kimerül. A fejlettebb szövegbányászati rendszerek esetében már döntési fa, parsing window, hidden Markov model, statisztikai összefüggések, feltételes valszínűségi modellek, maximum entrópia modellek alkalmazásával oldjuk meg a nevesített entitás felismerés jelentette kihívásokat.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com