Szövegbányászat cikksorozat
Bevezetés - Mi a szövegbányászat?
A szövegbányászat kialakulását motiváló tényezők
A szövegbányászat üzleti haszna
Szöveges dokumentumok attribútumai
Sztring hasonlósági metrikák
Szótövezés
Stopszó eliminálás
Optikai karakterfelismerés
Automatikus kulcsszó kigyűjtés
Automatikus nyelvdetekció
Korpusz egyedi szavainak (lexikon) kinyerése
Egyedi szó súlyozási technikák
A vektortér modell
Mélyszemantikájú indexelés (latent semantic indexing)
Valószínűségi modellek
Index tárolási módszerek
Dokumentum klaszterizációs módszerek
Szöveges információ visszakeresés
Spektrális szövegbányászat
Nevesített entitás felismerés
Újdonság detekció szöveges korpuszokban
Szövegbányászat az Interneten (web bányászat)
Typogenetika
 
     
 
 
     
 

Ajánlott szövegbányászat oldalak

 
 

 

 

Typogenetika

A szövegbányászat egy érdekes és igen speciális irányzata a typogenetika. Első említése Hofstadter Gödel, Escher, Bach c. könyvében történt, azóta egyre kutatottabb területe a szövegbányászatnak. Kulcsfogalmai az önhivatkozás, önhasonlóság, önreprodukció.  Igen közel áll a mesterséges élet kutatásokhoz és a sejtautomatákhoz. Kialakulását a genetika eredményei nagymértékben elősegítették. A typogenetika valójában a valós biológiai genetika kiterjesztése, annak karaktersztring alapú tanulmányozása, így a szövegbányászat határterülete is egyben.

A typogenetika egy kis számú formális szabályok által leírt mesterséges rendszer, amely szöveges sztringeken keresztül alkalmazza a genetika eredményeit. A szábályokon kívül a rendszerben csak sztringek, és a sztringeken bizonyos átalakítási műveleteket végrehatjatni képes mesterséges enzimek találhatóak. A sztringek alapesetben a genetikából vett négy ismert karakter (A-adenin, C-citozin, T-timin, G-guanin) sorozatai. A mesterséges enzimek sztring-manipuláló műveletek sorozata. Egy sztring önmaga is lehet egy enzim, az ún. fordítás folyamata alakíthat át egy sztringet egy enzimmé. Ezáltal egy sztring tartalmazhatja a saját magára vonatkozó elvégzendő műveletek sorozatát is. Az érdekes kérdés itt az, hogy előállhat-e olyan helyzet, amikor a leszármazott sztringek között ott van az eredetivel ekvivalens, ugyan olyan sztring is. A válasz igen. Az ilyen tulajdonságú sztringek képesek az önreprodukcióra. Amennyiben a rendszerben lévő sztringekre rekurzív módon alkalmazzuk a szabályrendszert, akkor egy fraktálhoz hasonló eredményhez jutunk, amelyben fellelhető az önhasonlóság, önhivatkozás, önreprodukció.

Egy sztring több enzimet is kódolhat önmagában, ahhoz hasolnlóan, ahogy a DNS szál kódolja önmagában azokat az enzimeket, amelyek a szaporodásnál elvégzik a DNS szálon a műveleteket. Egy enzim több sztringre is hathat. Egy enzim-művelet során több sztring is keletkezhet. A fordítás során (amikor a sztringből enzim keletkezik) a sztring megmarad eredeti formájában. A rendszer formális leírása az alábbiakban kerül ismertetésre.

A következő formális rendszer definíciók az eredetileg javasolt typogenetikai rendszer modelljét írják le. Ettől eltérő rendszerek is elképzelhetőek más szabályrendszerrel és más karakterkészlettel. Az első verzióban a karakterek a követlező halmaz elemei voltak: {A, C, G, T}. Definíció szerint egy sztringben egy ilyen karakter neve bázis, az általa elfoglalt pozíció pedig az egység. Ezáltal az ACGGTTA sztringben a C bázis a másidik egységben található meg. A bázisok két osztályba sorolhatóak: purinok és pyrimidinek. Továbbá minden bázisnak van komplementer bázisa, ezáltal alkotva bázispárokat. Egy sztring tetszőleges bázisok és üres egységek által alkotott karakter lánc. Tehát a GATTACA_AACCTT egy sztring. A sztring nem tartalmazhat az üres egységen és az előre definiált ABC karakterein kívül más karaktereket.

A fordítás az a (ún. riboszómák által végzett) folyamat, amely során egy szrtringből enzim vagy enzimek keletkeznek. Ez a folyamat nem destruktív, azaz a szóban forgó sztring sértetlenül éli túl a fordítás folyamatát. A fordítás egy egyirányú folyamat, csak sztringekből keletkezhet enzim, fordítva nem lehetséges. A fordítás a sztringben a bázisokat párosítja. Amennyiben a sztring végén egy bázis marad, akkor azt nem veszi figyelembe a fordítási folyamat. A fordítási folyamat aminosavakat eredményez, minden bázis pár egy aminosavnak felel meg.

Az aminosavak olyan műveletek, amelyek egy sztringen képesek valamiféle változtatást végrehajtani. Egy enzim tulajdonképpen aminosavak sorozata.

Az enzimeknek úgynevezett kötődési preferenciájuk van. Az enzimek úgy végeznek műveleteket a sztringeken, hogy hozzájuk kapcsolódnak. Az enzim sztringen végzett műveletének kimenete változhat attól függően, hogy hol csatlakozik az enzim a sztringre. Minden enzimnek van egy kötődési prefernciája, amely meghatározza, hogy a sztring mely részeihez csatlakozhat, mielőtt a sztring manipuláló műveletét megkezdené. Ahogyan a biológiai genetikában beszélhetünk a proteinek másodlagos strukturájáról, úgy a typogenetikai rendszerben is értelmezett a másodlagos strukturája az enzimeknek. A másodlagos strukturát az aminosavak csavarosádi iránya befolyásolja. A fenti táblázatokban az s index arra utal, hogy annak az aminosavnak nincs csavarodása, az r index arra utal, hogy a csavarodás iránya a jobb, míg az l a bal irányú csavarodást jelzi. Konvenció alapján vizuális szemléltetésnél az első aminosavat úgy rajzoljuk, hogy a következő aminosav tőle mindig jobbra essen. A kötődési preferenciát az enzim utolsó két aminosava közötti kapcsolat iránya határozza meg. Amennyiben egy enzim csak egy aminosavból áll (tehát a fenti kötődési preferencia definíció nem alkalmazható rá), akkor megegyezés szerint az A bázishoz kapcsolódik.

A fent vázolt typogenetikai rendszer nem determinisztrikus több vonatkozásban is. Mindazonáltal az absztrakt szöveges dokumentumok tanulmányozásának érdekes megközelítése, amely a genetika analógiájára szöveges sztringek esetében használja a genetikában a természet és az evolúció által megvalósított folyamatokat.

Vázsonyi Miklós


(C) 2006 VÁZSONYI Informatikai és Tanácsadó Kft.
http://www.vazsonyi.hu http://www.vazsonyi.com
Adószám: 13641023-2-03
E-mail: contact@vazsonyi.com