Treebankünkben azoknak a mondatoknak a gépi elemzése, amelyekben a felhasználó által a rendszerrel kikerestetett szavak előfordulnak, egy olyan ágrajzot (összetevős szerkezeti ábrázolást) nyújt, amelyben a mondat minden egyes szava alatt szerepelnek az illető szó morfoszintaktikai jegyei. (Az összetevős szerkezet tulajdonságairól l. a másik menüpontot.) Ebben a pontban a morfoszintaktikai jegyekről lesz szó. Ezeknek a jegyeknek alapvető fontosságuk van. Először is meghatározzák az adott szó szintaktikai kategóriáját. Ez biztosítja azt, hogy a szó a mondatban a megfelelő pozíciót foglalja el. Ezen túlmenően részletesen jellemzik a szót funkcionális szempontból: azt kódolják, hogy a szó az alapjelentésén kívül milyen további információkkal járul hozzá a mondat jelentéséhez (például jelölhetik azt, hogy egy főnév többes számú, vagy azt, hogy egy ige kijelentő módú, jelen idejű, egyes szám második személyű és tárgyas ragozású). A legtöbb ilyen, ún. inflexiós jegyet a szótőhöz kapcsolódó toldalékok viszik be a szóalakba, illetve ha képzett szóval állunk szemben (tehát ha a szótőhöz nem rag vagy jel, hanem képző járul), akkor a képzés jellegét és tartalmát is ilyen típusú, a képző által hordozott jegyek kódolják. A jegyek közül néhánynak a természetét az alábbi, találomra kiválasztott példa elemzésén keresztül mutatjuk be.
A 29. számú háznál a szomszédjuk felől érdeklődöm.
A névelők kivételével minden szóalak alatt megtalálhatók a morfoszintaktikai jegyei (a névelő sajátos viselkedéséről később lesz szó). Ezek (és a magyarázatuk) a következők.
29.: +Dig +Ord
(+Dig = számjegyekkel kifejezett szó; +Ord = sorszámnév)
számú: szám +Noun ^DB +Nadj +DerU +Sg +Nom
(szám = szótő; +Noun = főnév; ^DB = (a főnév) képzés bemenetéül szolgál; +Nadj = a képzett szó melléknévi kategóriájú; +DerU = a képző fajtája: -ú/-ű; +Sg = egyes szám; +Nom = alanyeset)
háznál: ház +Noun +Sg +Ade
(ház = szótő; +Noun = alanyeset; +Sg = egyes szám; +Ade = adessivusi esetrag: -nál/-nél)
szomszédjuk: szomszéd +Noun +Poss +SgP +Pl +3P +Nom
(szomszéd = szótő; +Noun = főnév; +Poss = birtokviszony; +SgP = egyes számú birtok; +Pl = többes számú birtokos; +3P = harmadik személyű birtokos; +Nom = alanyeset)
felől: felől +PostPos
(felől = szótő; +PostPos = névutó)
érdeklődöm: érdeklődik +Verb +PresInd +Indef +Sg +1P
(érdeklődik = szótő; +Verb = ige; +PresInd = jelen idő, kijelentő mód; +Indef = határozatlan ragozású ige; +Sg = egyes szám; +1P = első személy)
Ha rákeresünk a háznál szóalakra a treebankben, akkor azt találjuk, hogy a fenti mondat kétszer is megjelenik a listán. Ennek az az oka, hogy a gépi elemzés alapjául szolgáló implementált nyelvtan morfológiai komponense (egy véges állapotú átalakító, amelyre a továbbiakban fst komponensként hivatkozunk, vö. fst = finite state transducer), bizonyos szavakat többféleképpen is leelemez. A példamondatunk esetében az igealak kap kétféle elemzést, ezért jelenik meg kétszer a mondat a listán: mindkét előfordulása értelemszerűen ugyanazt az összetevős szerkezeti ábrázolást kapja, minden szó ugyanazokat a morfoszintaktikai jegyeket hordozza – az igealak kivételével. Emiatt, vagyis az igei morfoszintaktikai jegyek részleges eltérése miatt két – csupán ebben a mozzanatban – eltérő elemzést ad a gépi nyelvtanunk. Fentebb láttuk az érdeklődöm egyik morfoszintaktikai (fst) jellemzését, alább látható a másik.
érdeklődöm: érdekel +Verb ^DB +Verb +Refl +PresInd +Indef +Sg +1P
(érdekel = szótő; +Verb = ige; ^DB = (az ige) képzés bemenetéül szolgál; +Verb = a képzett szó igei kategóriájú; +Refl = visszaható/mediális/intranzitiváló képzővel létrehozott ige; +PresInd = jelen idő, kijelentő mód; +Indef = határozatlan ragozású ige; +Sg = egyes szám; +1P = első személy)
Nyilvánvaló, hogy az érdeklődik igének van egy rögzült jelentése, és a mai magyar nyelvhasználatban csak ez él, és ez kódolva is van a nyelvtanunk fst komponensében. Ennek eredménye az első változatot tartalmazó morfoszintaktikai elemzés. Ugyanakkor az fst komponens automatikusan "szét is elemzi" morfológiailag ezt az igét az érdekel szótőre és az -ődik visszaható/mediális/intranzitiváló igeképzőre (vö. művelődik = művel + ődik (visszaható) fertőződik = fertőz + ődik (mediális)), hiszen egy ilyen változatból rögzült a mai használat. Ilyen jellegű kettős reprezentációk számos esetben előfordulhatnak ebben az automatizált gépi elemzésben.
A példánkban a határozott névelőnek azért nincs morfoszintaktikai jellemzése, mert vannak olyan szavak, amelyek esetében a gépi elemzést irányító nyelvtanunk "letiltja" az fst komponens működését. Ennek különböző okai vannak, de ezek a treebankes összetevős szerkezeti elemzés tekintetében közömbösek. A lényeges mozzanat a mi szempontunkból az, hogy ha egy szó elemzésekor le van tiltva az fst, akkor az azt jelenti, hogy az adott szónak van egy speciális tétele a nyelvtan szótári komponensében, amelyben a vele kapcsolatos kategoriális és egyéb információk is kódolva vannak, és így illeszthető be a megfelelő szintaktikai pozícióba. A letiltás viszont azzal jár, hogy az összetevős szerkezetben az adott szó alatt nem jelennek meg a morfoszintaktikai jegyei, mert ezeket a jegyeket – a nyelvtan felépítéséből és működéséből következőleg – csak az fst komponens tudja "beírni" a szerkezeti ábrázolásba.
Amikor rákeresünk egy szóalakra, akkor az eredménylista második oszlopában, a morfológia fejléc alatt az adott szóalak morfoszintaktikai jegyeit találjuk. Amikor lemmára (szótőre) keresünk, a morfológia a harmadik oszlop, és ebben minden egyes tétel esetében azok a morfoszintaktikai jegyek szerepelnek, amelyek az adott szóalakban a lemmához kapcsolódnak.
Az alábbi lista (ábécé rendben) tartalmazza a nyelvtanunk fst komponense által használt leggyakoribb (és ezért legfontosabb) morfológiai jegyeket, azokat a csomópontkategóriákat, amelyek alatt az összetevős szerkezetekben megjelenhetnek, és ezeknek a jegyeknek az értelmezését. Treebankünkben ezekre a jegyekre is egyenként lehet keresni.
jegy | domináló kategória | értelmezés |
---|---|---|
^DB | A, ADV, N, V | a szótő szóképzés bemenete |
+1P | N, PRON, V | első személy |
+2P | N, PRON, V | második személy |
+3P | N, PRON, V | harmadik személy |
+Abl | A, N, NUMBER, PRON | ablativusi esetrag (-tól/-től) |
+Acc | A, N, NUMBER, PRON | accusativusi eset (tárgyeset) |
+Ade | A, N, NUMBER, PRON | adessivusi esetrag (-nál/-nél) |
+Adj | A | melléknév |
+Adv | ADV | határozó |
+AdvPart | Vpart | határozói igenév (képzője: -va/-ve) |
+All | A, N, NUMBER, PRON | allativusi esetrag (képzője: -hoz/-hez/-höz) |
+CausFin | A, N, NUMBER, PRON | causalis-finalis esetrag (-ért) |
+Comp | A, ADV | melléknév vagy határozó középfoka: -abb/-ebb/-bb |
+Cond | V | feltételes mód (képzője: -na/-ne, -ná/-né) |
+Def | V | határozott (igeragozás) |
+DeictPron | PRON | mutatónévmás |
+Del | A, N, NUMBER, PRON | delativusi esetrag (-ról/-ről) |
+Der_I | A | -i melléknévképző |
+Der_S | A | -s melléknévképző |
+Deverb | N | -ás/-és deverbális főnévképző |
+Dig | NUMBER | számjegyekkel kifejezett szó |
+Ela | A, N, NUMBER, PRON | elativusi esetrag (-ból/-ből) |
+EssF | A, N, NUMBER, PRON | essivusi-fomalis esetrag (-ként) |
+Fact | V | műveltető ige (képzője: -at/-et, -tat/-tet) |
+FutPart | Vpart | jövő idejű melléknévi igenév (képzője: -andó/-endő) |
+GenDat | A, N, NUMBER, PRON | dativusi esetrag (-nak/-nek) |
+GenePron | PRON | általános névmás |
+Ill | A, N, NUMBER, PRON | illativusi esetrag (-ba/-be) |
+Indef | V | határozatlan (igeragozás) |
+Inpl | V | egyes szám első személyű alany, második személyű tárgy (-lak/-leg rag) |
+Impv | V | felszólító mód |
+IndefPron | PRON | határozatlan névmás |
+Ine | A, N, NUMBER, PRON | inessivusi esetrag (-ban/-ben) |
+Inf | Vpart | főnévi igenév |
+Ins | A, N, NUMBER, PRON | instrumentalis esetrag (-val/-vel) |
+Nadj | A | melléknév |
+Nom | A, N, NUMBER, PRON | nominativusi eset (alanyeset) |
+Noun | N | főnév |
+Num | NUMBER | számnév |
+Pass | V | szenvedő ige (képzője: -atik/-etik, -tatik/-tetik) |
+Past | V | múlt idő (jele: -t/-tt) |
+PastPart | Vpart | múlt idejű melléknévi igenév (képzője: -t/-tt) |
+PersPron | PRON | személyes névmás |
+Pl | A, N, NUMBER, PRON, V | többes szám |
+PlP | N | többes számú birtok (jele: -i) |
+Poss | N | birtokviszony |
+PostPos | P | névutó |
+PresInd | V | jelen idő, kijelentő mód |
+PresPart | Vpart | jelen idejű melléknévi igenév (képzője: -ó/-ő) |
+Pron | PRON | névmás |
+Prop | N | tulajdonnév |
+PS | N | -é birtokjel (vö: Jánosé) |
+Refl | V | mediális/visszaható ige (képzője: -ódik/-ődik) |
+ReflPron | PRON | visszaható névmás |
+RelPron | PRON | vonatkozó névmás |
+Sg | A, N, NUMBER, PRON, V | egyes szám |
+SgP | N | egyes számú birtok |
+Sub | A, N, NUMBER, PRON | sublativusi esetrag (-ra/-re) |
+Sup | A, N, NUMBER, PRON | superessivusi esetrag (-on/-en/-ön/-n) |
+Super+ | A, ADV | melléknév vagy határozó felsőfoka: leg- |
+Term | A, N, NUMBER, PRON | terminativusi esetrag (-ig) |
+Tra | A, N, NUMBER, PRON | translativusi esetrag (-vá/-vé) |
+Verb | V | ige |
A mondattani elemzést megjelenítő ún. összetevős szerkezeteket egy újraíró szabályokból álló, LFG-alapú nyelvtan hozza létre. Az ilyen típusú nyelvtani szabályok széles körben használatosak a modern nyelvtanokban. Azért hívjuk őket újraíró szabályoknak, mert egy adott mondattani kategóriát "írnak újra" a közvetlen összetevőinek a füzéreként. Például egy melléknévi csoport (AP) felbontható egy a melléknevet módosító határozói csoport (ADVP) és a melléknévi fej (A) ilyen sorrendben vett együttesére, mint a nagyon szép kifejezésben. A konkrétan felhasznált szavaktól függetlenített, csak a kategoriális címkékre érzékeny (egyszerűsített) szabályként felírva: AP → ADVP A.
Az Treebanket létrehozó magyar nyelvtan mondattana lényegében ilyen jellegű szabályok halmaza. Maga a nyelvtan a Treebankben tárolt szerkezeteken keresztül részletesen megismerhető, az érdeklődő felhasználóknak pedig részletesebb információkkal szolgálhat kutatócsoportunk honlapja és az ott elérhető tudományos közlemények (http://hungram.unideb.hu). Két egyedi jellemzőre viszont szeretnénk külön is felhívni a felhasználók figyelmét. Egyrészt, a Treebankben használt nyelvtanunkban nem épül ki külön frázis szintű kifejezés (VP) az ige köré, hanem egyszerűen csak fejként (V) kerül beillesztésre az ige a tagmondati csomópont alá. Másrészt, az igekötőket olyan ADV-típusű (vagyis határozói) kifejezéseknek tekintjük, amelyek mondattanilag önállók az igétől akkor is, amikor közvetlenül megelőzik azt.
Az összetevős szerkezetekben megjelenő kategoriális címkék elnevezésének alapja minden esetben a megfelelő angol kifejezés. A könnyebb érthetőség kedvéért a címkéket ezért az alábbi táblázatban foglaljuk össze.
címke | magyar leírás | megjegyzések |
---|---|---|
ROOT | gyökércsomópont | A mondatszerkezet legfelsőbb csomópontja, amely a mondatvégi írásjele kapcsolja a mondat tulajdonképpeni nyelvtani szerkezetéhez. |
S | tagmondat | A tagmondat általános kategóriája. |
Sembed | alárendelt mellékmondat | Egy főmondatnak alárendelt, véges (vagyis időjellel ellátott) igei fejet tartalmazó mellékmondat. |
Sembedcomp | hasonlító mellékmondat | A mint mondatbevezető által jelölt alárendelt mellékmondat. pld: Vagy önálló vagy, mint a tékozló fiú? |
VPpart | melléknévi igeneves mellékmondat | Valamilyen igenév körül kiépülő tagmondat. A nyelvtanunk négyféle igenevet ismer: folyamatos melléknévi igenév (megismerő); befejezett melléknévi igenév (megismert); határozói melléknévi igenév (megismerve); beálló melléknévi igenév (megismerendő). |
VPinf | főnévi igeneves mellékmondat | Egy főnévi igenév köré kiépülő tagmondat. |
NP | főnévi csoport | Egy főnévi fej köré kiépülő frázis. |
DETP | determinánsi frázis | Az eme vagy az ama determinánsok köré kiépülő frázis. pld: A diákok eme piros betűs ünnepén szünetel a tanítás. |
PRON | névmás | A névmások főnévi csoportotként (NP) kerülnek beillesztésre a mondatszerkezetbe a nyelvtanunkban. |
NUMBERP | számnévi csoport | Valamilyen számnévi elem által meghatározott frázis. NUMBERP kategória alatt kerülnek be a szerkezetbe az olyan mennyiséget jelölő kifejezések is, mint a sok vagy a kevés, illetve például a korsó főnév az egy korsó sör főnévi csoportban. |
AP | melléknévi csoport | Egy melléknév köré kiépülő frázis. pld: Nagyon jó volt a módszer. |
ADVP | határozói csoport | Egy határozó köré kiépülő frázis. pld: Az ismerős elég gyorsan kapcsolt. ADV-nak tekintjük az is szócskát és a nem tagadószót is. |
PP | névutói csoport | Egy névutós kifejezés köré kiépülő frázis. pld: A Józsi mellett alszom. |
PRT | partikula | Olyan nyelvtani szerepű szó, mely nem épít ki önálló frázist. Ilyen a feltételes mód jeleként múlt időjű igealakokban használt volna szócska, lásd: mentem volna. |