A morfológia

A szintaxisA morfológia

Treebankünkben azoknak a mondatoknak a gépi elemzése, amelyekben a felhasználó által a rendszerrel kikerestetett szavak előfordulnak, egy olyan ágrajzot (összetevős szerkezeti ábrázolást) nyújt, amelyben a mondat minden egyes szava alatt szerepelnek az illető szó morfoszintaktikai jegyei. (Az összetevős szerkezet tulajdonságairól l. a másik menüpontot.) Ebben a pontban a morfoszintaktikai jegyekről lesz szó. Ezeknek a jegyeknek alapvető fontosságuk van. Először is meghatározzák az adott szó szintaktikai kategóriáját. Ez biztosítja azt, hogy a szó a mondatban a megfelelő pozíciót foglalja el. Ezen túlmenően részletesen jellemzik a szót funkcionális szempontból: azt kódolják, hogy a szó az alapjelentésén kívül milyen további információkkal járul hozzá a mondat jelentéséhez (például jelölhetik azt, hogy egy főnév többes számú, vagy azt, hogy egy ige kijelentő módú, jelen idejű, egyes szám második személyű és tárgyas ragozású). A legtöbb ilyen, ún. inflexiós jegyet a szótőhöz kapcsolódó toldalékok viszik be a szóalakba, illetve ha képzett szóval állunk szemben (tehát ha a szótőhöz nem rag vagy jel, hanem képző járul), akkor a képzés jellegét és tartalmát is ilyen típusú, a képző által hordozott jegyek kódolják. A jegyek közül néhánynak a természetét az alábbi, találomra kiválasztott példa elemzésén keresztül mutatjuk be.

A 29. számú háznál a szomszédjuk felől érdeklődöm.

A névelők kivételével minden szóalak alatt megtalálhatók a morfoszintaktikai jegyei (a névelő sajátos viselkedéséről később lesz szó). Ezek (és a magyarázatuk) a következők.

29.: +Dig +Ord

(+Dig = számjegyekkel kifejezett szó; +Ord = sorszámnév)

számú: szám +Noun ^DB +Nadj +DerU +Sg +Nom

(szám = szótő; +Noun = főnév; ^DB = (a főnév) képzés bemenetéül szolgál; +Nadj = a képzett szó melléknévi kategóriájú; +DerU = a képző fajtája: -ú/-ű; +Sg = egyes szám; +Nom = alanyeset)

háznál: ház +Noun +Sg +Ade

(ház = szótő; +Noun = alanyeset; +Sg = egyes szám; +Ade = adessivusi esetrag: -nál/-nél)

szomszédjuk: szomszéd +Noun +Poss +SgP +Pl +3P +Nom

(szomszéd = szótő; +Noun = főnév; +Poss = birtokviszony; +SgP = egyes számú birtok; +Pl = többes számú birtokos; +3P = harmadik személyű birtokos; +Nom = alanyeset)

felől: felől +PostPos

(felől = szótő; +PostPos = névutó)

érdeklődöm: érdeklődik +Verb +PresInd +Indef +Sg +1P

(érdeklődik = szótő; +Verb = ige; +PresInd = jelen idő, kijelentő mód; +Indef = határozatlan ragozású ige; +Sg = egyes szám; +1P = első személy)


Ha rákeresünk a háznál szóalakra a treebankben, akkor azt találjuk, hogy a fenti mondat kétszer is megjelenik a listán. Ennek az az oka, hogy a gépi elemzés alapjául szolgáló implementált nyelvtan morfológiai komponense (egy véges állapotú átalakító, amelyre a továbbiakban fst komponensként hivatkozunk, vö. fst = finite state transducer), bizonyos szavakat többféleképpen is leelemez. A példamondatunk esetében az igealak kap kétféle elemzést, ezért jelenik meg kétszer a mondat a listán: mindkét előfordulása értelemszerűen ugyanazt az összetevős szerkezeti ábrázolást kapja, minden szó ugyanazokat a morfoszintaktikai jegyeket hordozza – az igealak kivételével. Emiatt, vagyis az igei morfoszintaktikai jegyek részleges eltérése miatt két – csupán ebben a mozzanatban – eltérő elemzést ad a gépi nyelvtanunk. Fentebb láttuk az érdeklődöm egyik morfoszintaktikai (fst) jellemzését, alább látható a másik.

érdeklődöm: érdekel +Verb ^DB +Verb +Refl +PresInd +Indef +Sg +1P

(érdekel = szótő; +Verb = ige; ^DB = (az ige) képzés bemenetéül szolgál; +Verb = a képzett szó igei kategóriájú; +Refl = visszaható/mediális/intranzitiváló képzővel létrehozott ige; +PresInd = jelen idő, kijelentő mód; +Indef = határozatlan ragozású ige; +Sg = egyes szám; +1P = első személy)

Nyilvánvaló, hogy az érdeklődik igének van egy rögzült jelentése, és a mai magyar nyelvhasználatban csak ez él, és ez kódolva is van a nyelvtanunk fst komponensében. Ennek eredménye az első változatot tartalmazó morfoszintaktikai elemzés. Ugyanakkor az fst komponens automatikusan "szét is elemzi" morfológiailag ezt az igét az érdekel szótőre és az -ődik visszaható/mediális/intranzitiváló igeképzőre (vö. művelődik = művel + ődik (visszaható) fertőződik = fertőz + ődik (mediális)), hiszen egy ilyen változatból rögzült a mai használat. Ilyen jellegű kettős reprezentációk számos esetben előfordulhatnak ebben az automatizált gépi elemzésben.

A példánkban a határozott névelőnek azért nincs morfoszintaktikai jellemzése, mert vannak olyan szavak, amelyek esetében a gépi elemzést irányító nyelvtanunk "letiltja" az fst komponens működését. Ennek különböző okai vannak, de ezek a treebankes összetevős szerkezeti elemzés tekintetében közömbösek. A lényeges mozzanat a mi szempontunkból az, hogy ha egy szó elemzésekor le van tiltva az fst, akkor az azt jelenti, hogy az adott szónak van egy speciális tétele a nyelvtan szótári komponensében, amelyben a vele kapcsolatos kategoriális és egyéb információk is kódolva vannak, és így illeszthető be a megfelelő szintaktikai pozícióba. A letiltás viszont azzal jár, hogy az összetevős szerkezetben az adott szó alatt nem jelennek meg a morfoszintaktikai jegyei, mert ezeket a jegyeket – a nyelvtan felépítéséből és működéséből következőleg – csak az fst komponens tudja "beírni" a szerkezeti ábrázolásba.

Amikor rákeresünk egy szóalakra, akkor az eredménylista második oszlopában, a morfológia fejléc alatt az adott szóalak morfoszintaktikai jegyeit találjuk. Amikor lemmára (szótőre) keresünk, a morfológia a harmadik oszlop, és ebben minden egyes tétel esetében azok a morfoszintaktikai jegyek szerepelnek, amelyek az adott szóalakban a lemmához kapcsolódnak.

Az alábbi lista (ábécé rendben) tartalmazza a nyelvtanunk fst komponense által használt leggyakoribb (és ezért legfontosabb) morfológiai jegyeket, azokat a csomópontkategóriákat, amelyek alatt az összetevős szerkezetekben megjelenhetnek, és ezeknek a jegyeknek az értelmezését. Treebankünkben ezekre a jegyekre is egyenként lehet keresni.

jegy domináló kategória értelmezés
^DB A, ADV, N, V a szótő szóképzés bemenete
+1P N, PRON, V első személy
+2P N, PRON, V második személy
+3P N, PRON, V harmadik személy
+Abl A, N, NUMBER, PRON ablativusi esetrag (-tól/-től)
+Acc A, N, NUMBER, PRON accusativusi eset (tárgyeset)
+Ade A, N, NUMBER, PRON adessivusi esetrag (-nál/-nél)
+Adj A melléknév
+Adv ADV határozó
+AdvPart Vpart határozói igenév (képzője: -va/-ve)
+All A, N, NUMBER, PRON allativusi esetrag (képzője: -hoz/-hez/-höz)
+CausFin A, N, NUMBER, PRON causalis-finalis esetrag (-ért)
+Comp A, ADV melléknév vagy határozó középfoka: -abb/-ebb/-bb
+Cond V feltételes mód (képzője: -na/-ne, -ná/-né)
+Def V határozott (igeragozás)
+DeictPron PRON mutatónévmás
+Del A, N, NUMBER, PRON delativusi esetrag (-ról/-ről)
+Der_I A -i melléknévképző
+Der_S A -s melléknévképző
+Deverb N -ás/-és deverbális főnévképző
+Dig NUMBER számjegyekkel kifejezett szó
+Ela A, N, NUMBER, PRON elativusi esetrag (-ból/-ből)
+EssF A, N, NUMBER, PRON essivusi-fomalis esetrag (-ként)
+Fact V műveltető ige (képzője: -at/-et, -tat/-tet)
+FutPart Vpart jövő idejű melléknévi igenév (képzője: -andó/-endő)
+GenDat A, N, NUMBER, PRON dativusi esetrag (-nak/-nek)
+GenePron PRON általános névmás
+Ill A, N, NUMBER, PRON illativusi esetrag (-ba/-be)
+Indef V határozatlan (igeragozás)
+Inpl V egyes szám első személyű alany, második személyű tárgy (-lak/-leg rag)
+Impv V felszólító mód
+IndefPron PRON határozatlan névmás
+Ine A, N, NUMBER, PRON inessivusi esetrag (-ban/-ben)
+Inf Vpart főnévi igenév
+Ins A, N, NUMBER, PRON instrumentalis esetrag (-val/-vel)
+Nadj A melléknév
+Nom A, N, NUMBER, PRON nominativusi eset (alanyeset)
+Noun N főnév
+Num NUMBER számnév
+Pass V szenvedő ige (képzője: -atik/-etik, -tatik/-tetik)
+Past V múlt idő (jele: -t/-tt)
+PastPart Vpart múlt idejű melléknévi igenév (képzője: -t/-tt)
+PersPron PRON személyes névmás
+Pl A, N, NUMBER, PRON, V többes szám
+PlP N többes számú birtok (jele: -i)
+Poss N birtokviszony
+PostPos P névutó
+PresInd V jelen idő, kijelentő mód
+PresPart Vpart jelen idejű melléknévi igenév (képzője: /)
+Pron PRON névmás
+Prop N tulajdonnév
+PS N birtokjel (vö: Jánosé)
+Refl V mediális/visszaható ige (képzője: -ódik/-ődik)
+ReflPron PRON visszaható névmás
+RelPron PRON vonatkozó névmás
+Sg A, N, NUMBER, PRON, V egyes szám
+SgP N egyes számú birtok
+Sub A, N, NUMBER, PRON sublativusi esetrag (-ra/-re)
+Sup A, N, NUMBER, PRON superessivusi esetrag (-on/-en/-ön/-n)
+Super+ A, ADV melléknév vagy határozó felsőfoka: leg-
+Term A, N, NUMBER, PRON terminativusi esetrag (-ig)
+Tra A, N, NUMBER, PRON translativusi esetrag (-vá/-vé)
+Verb V ige
A szintaxis

A mondattani elemzést megjelenítő ún. összetevős szerkezeteket egy újraíró szabályokból álló, LFG-alapú nyelvtan hozza létre. Az ilyen típusú nyelvtani szabályok széles körben használatosak a modern nyelvtanokban. Azért hívjuk őket újraíró szabályoknak, mert egy adott mondattani kategóriát "írnak újra" a közvetlen összetevőinek a füzéreként. Például egy melléknévi csoport (AP) felbontható egy a melléknevet módosító határozói csoport (ADVP) és a melléknévi fej (A) ilyen sorrendben vett együttesére, mint a nagyon szép kifejezésben. A konkrétan felhasznált szavaktól függetlenített, csak a kategoriális címkékre érzékeny (egyszerűsített) szabályként felírva: AP → ADVP A.

Az Treebanket létrehozó magyar nyelvtan mondattana lényegében ilyen jellegű szabályok halmaza. Maga a nyelvtan a Treebankben tárolt szerkezeteken keresztül részletesen megismerhető, az érdeklődő felhasználóknak pedig részletesebb információkkal szolgálhat kutatócsoportunk honlapja és az ott elérhető tudományos közlemények (http://hungram.unideb.hu). Két egyedi jellemzőre viszont szeretnénk külön is felhívni a felhasználók figyelmét. Egyrészt, a Treebankben használt nyelvtanunkban nem épül ki külön frázis szintű kifejezés (VP) az ige köré, hanem egyszerűen csak fejként (V) kerül beillesztésre az ige a tagmondati csomópont alá. Másrészt, az igekötőket olyan ADV-típusű (vagyis határozói) kifejezéseknek tekintjük, amelyek mondattanilag önállók az igétől akkor is, amikor közvetlenül megelőzik azt.

Az összetevős szerkezetekben megjelenő kategoriális címkék elnevezésének alapja minden esetben a megfelelő angol kifejezés. A könnyebb érthetőség kedvéért a címkéket ezért az alábbi táblázatban foglaljuk össze.

címke magyar leírás megjegyzések
ROOT gyökércsomópont A mondatszerkezet legfelsőbb csomópontja, amely a mondatvégi írásjele kapcsolja a mondat tulajdonképpeni nyelvtani szerkezetéhez.
S tagmondat A tagmondat általános kategóriája.
Sembed alárendelt mellékmondat Egy főmondatnak alárendelt, véges (vagyis időjellel ellátott) igei fejet tartalmazó mellékmondat.
Sembedcomp hasonlító mellékmondat A mint mondatbevezető által jelölt alárendelt mellékmondat.
pld: Vagy önálló vagy, mint a tékozló fiú?
VPpart melléknévi igeneves mellékmondat Valamilyen igenév körül kiépülő tagmondat.
A nyelvtanunk négyféle igenevet ismer:
folyamatos melléknévi igenév (megismerő);
befejezett melléknévi igenév (megismert);
határozói melléknévi igenév (megismerve);
beálló melléknévi igenév (megismerendő).
VPinf főnévi igeneves mellékmondat Egy főnévi igenév köré kiépülő tagmondat.
NP főnévi csoport Egy főnévi fej köré kiépülő frázis.
DETP determinánsi frázis Az eme vagy az ama determinánsok köré kiépülő frázis.
pld: A diákok eme piros betűs ünnepén szünetel a tanítás.
PRON névmás A névmások főnévi csoportotként (NP) kerülnek beillesztésre a mondatszerkezetbe a nyelvtanunkban.
NUMBERP számnévi csoport Valamilyen számnévi elem által meghatározott frázis. NUMBERP kategória alatt kerülnek be a szerkezetbe az olyan mennyiséget jelölő kifejezések is, mint a sok vagy a kevés, illetve például a korsó főnév az egy korsó sör főnévi csoportban.
AP melléknévi csoport Egy melléknév köré kiépülő frázis.
pld: Nagyon jó volt a módszer.
ADVP határozói csoport Egy határozó köré kiépülő frázis.
pld: Az ismerős elég gyorsan kapcsolt.
ADV-nak tekintjük az is szócskát és a nem tagadószót is.
PP névutói csoport Egy névutós kifejezés köré kiépülő frázis.
pld: A Józsi mellett alszom.
PRT partikula Olyan nyelvtani szerepű szó, mely nem épít ki önálló frázist. Ilyen a feltételes mód jeleként múlt időjű igealakokban használt volna szócska, lásd: mentem volna.