Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Automatikus nyelvdetekció

A szövegbányászati feladatok egyik megelőző lépésének tekinthető az adott szövegek nyelvi felismerésének  feladata. A nyelvdetekció egy fontos kiinduló lépés elsősorban többnyelvű dokumentumok esetében, és kiemelten jelentős az internetes web mining esetén, amikor web spider technológiával automatikus webes dokumentum feltérképezést végzünk, amelynek során információ kinyerés és dokumentum strukturálás és/vagy osztályozás a célunk. Ekkor a strukturálás érdekében a bemenetként szolgáló szövegekről el kell dönteni, hogy milyen nyelven íródtak. A nyelvfelismerés alapvető megelőző eszköze mind az egy nyelven, mind pedig a több nyelven történő szövegbányászatnak, amennyiben a keresési tér objektumai többnyelvűek, és egymással keveredve fordulnak elő.

A nyelvdetekciós feladatok célja a vizsgált szövegek, dokumentumok nyelvének nagy pontosságú automatikus megállapítása. Ehhez találnunk kell olyan sajátosságokat, jellegzetességeket, amelyek az adott nyelvekre egyértelműen és kizárólagosan jellemzőek, ezáltal megkülönböztethetővé teszik őket más nyelvektől.

Egy naiv módszernek tűnhet például az ismert nyelvek gyakran használt szókincsének tárolása, és a vizsgált szöveget legjobban tartalmazó szótár állomány megkeresése, ez azonban körülményes és lassú módja a nyelvdetekciónak, továbbá tárhely igénye is meglehetősen nagy, hiszen ahhoz, hogy rövidebb és speciális dokumentumokat is (akár rövid, néhány szavas szreingeket is) fel tudjon ismerni, ahhoz minden nyelv szókincsének igen nagy hányadát le kellene tárolnia. Egy szintén naiv, de már jóval alkalmazhatóbb módszer lenne a speciális, adott nyelvekre jellemző karakterek kigyűjtése. Sok nyelvnek vannak sajátos karakterei, amelyek más nyelvek karakterkészletének nem elemei, mint például az ékezetes betűk, vagy egyéb szimbólumokat használó nyelvek esetében. Tárhelyigény szempontjából egy ilyen rendszer igen hatékony lenne, hiszen csak néhány speciális karaktert kellene letárolnia minden egyes nyelvhez. Ez a módszer nagy valószínűséggel meg tudná állapítani egy dokumentum nyelvét abban az esetben, ha az olyan karakter(eke)t tartalmaz, amely csak egy bizonyos nyelvben fordul elő. Nyilván a kínai, japán, arab és hasonló, speciális karaktereket használó nyelvek esetében nem nagy a kihívás, sőt még a magyar nyelv esetében sem, hiszen í, ű, ő, stb. betűket más nyelvek nem használnak. Ez a nagyon egyszerű módszer akkor vallhat kudarcot, ha két nyelv azononos betűkészletet használ (pl. latin betűket az angol és a francia), vagy ha a vizsgált dokumentum annyira kicsi (például csak egy néhány szóból álló sztring), amelyben nem fordulnak elő a támpontot jelentő speciális karakterek (pl. a „makacs lomha sivatagi teve” sztring besorolása ebben az esetben problémás lenne).  Sőt, az ilyen speciális, kizárólag egy nyelvre jellemző karakterek érzékelése esetén sem mondhatjuk egyértelműen, hogy az egész dokumentum pl. német nyelvű, mert előfordulhat, hogy csak egy „ä” karaktert tartalmazó német kifejezés vagy tulajdonnév fordul elő egy spanyol szövegben.

A dokumentumok nyelvének elemzése tehát célszerű, ha az egész dokumentum sajátosságait veszi alapul, azaz a sajátosság kiemelés (feature extraction) alapja a teljes rendelkezésre álló dokumentum kell, hogy legyen. Ebben az esetben olyan módszer alkalmazása a célszerű, amely képes reprezentálni egy terjedelmes szöveg nyelvi komplexitását, írott nyelvi sajátosságait. Az alábbiakban egy egyszerűen betanítható és gyors algoritmus ismertetése található, amely igen hatékony megoldást nyújt a nyelvdetekciós problémára.

A természetes nyelvek egyik sajátossága a rájuk jellemző karakter eloszlások és sajátos karakter szekvencia eloszlások. Például az angolban jóval gyakoribb egy nagy dokumentum korpusz esetén a *th* karakter szekvencia, mint a magyar nyelvben. Ez szemléletesen azt jelenti, hogy több olyan szó van az angol nyelvben, amely tartalmaz *th* karakterpárt. Korábbi ezirányú kutatások kimutatták, hogy a trigram rejtett Markov modell (trigram Hidden Markov Model - HMM) képes a nyelvfelismerési feladatok nagy hatékonyságú és gyors megoldására. A trigram jelző arra utal, hogy a sajátosság kiemelés alapja a hármas karakterszekvenciák eloszlásának vizsgálata. Trigramokon alapuló elemzés  nagyobb hatékonyságot eredményez, mint a csak a páros karakterszekvenciákat figyelembe vevő bigram módszer, és kellően hatékony és gyors ahhoz, hogy ne kelljen hosszabb karakterszekvenciákat bevonni az elemzésbe.

Természetesen kiegészíthető a nyelv detekció más módszerekkel is, ezáltal hibrid nyelvdetekciós rendszert alkotva. Ilyen lehet például a fenti naiv módszerek bevonása, például egy szókincs tár, amely minden nyelvből tartalmaz szavakat felcímkézve, és a ezáltal ezekről a szavakról biztosan megállapítható, hogy milyen nyelvűek, vagy speciális karakterek letárolása, mindezeket arra az esetre tartalékolva, ha a trigram HMM modell nem képes határozottan eldönteni, hogy adott sztring vagy dokumentum milyen nyelvű. További módszer lehet a nyelvtani szerkezetek feltérképezését végrehajtó elemzés és morfológiai elemzés, ezek azonban túl bonyolultak a feladat egyszerűségéhez képést. Önmagában a trigram HMM elemzés alkalmazásával olyan kiemelkedően magas hatékonyságot és olyan gyors futási eredményt érhetünk el a nyelvdetekciós feladatok esetében, amelyek indokolatlanná teszik minden egyéb, lassító hatású kiegészítő módszer gyakorlati alkalmazását.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com