"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-67
EKKTT09-67 "Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs (1.01.2009−31.12.2010)", Tiit Roosmaa, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-67
Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2009−31.12.2009451 680,00 EEK (28 867,61 EUR)
01.01.2010−31.12.2010420 000,00 EEK (26 842,89 EUR)
55 710,50 EUR

Automaatne süntaktiline analüüs on vajalik paljudele keeletehnoloogilistele rakendustele, alustades automaatsest grammatikavigade tuvastajast ning lõpetades dialoogsüsteemide ja masintõlkega. Süntaktilise analüüs mõiste on väga lai, kuid eesti keele kontekstis hõlmab see traditsiooniliselt lauseliikmete funktsiooni kindlaksmääramist. Vähem tuntud on morfoloogilise ühestamise seostamine süntaktilise analüüsiga: sõna kontektsi sobiva morfoloogilise tõlgenduse valimine kõigi võimalike seast (nt kas ilma on nimi-, määr- või kaassõna). Inimene teeb seda kuulates või lugedes instinktiivselt, kuid algoritmiliselt on see küllaltki keeruline probleem. Eesti keele jaoks on loodud nii pindsüntaktiline analüsaator kui ka reeglipõhine morfoloogiline ühestaja. Pindsüntaktiline analüsaator leiab 90protsendilise täpsusega iga sõna süntaktilise funktsiooni lauses, kuid ei leia sõnade omavahelisi täpseid seoseid ega lausestruktuuri. Nt. eestäiendina esinev sõna saab küll eestäiendi märgendi, kuid ei täpsustata, millist sõna ta täiendab. Pindsüntaktilise analüüsi reeglid arvestavad nii kirjaliku kui suulise keelega, esimesed katsed on tehtud ka murdekeelsete tekstidega. Morfoloogilise ühestaja reeglid on loodud ainult kirjaliku keele automaatse analüüsi jaoks. Projekti eesmärgiks on olemasolevale morfoloogilisele ühestajale ja pindsüntaktilisele analüsaatorile tuginedes luua: 1. Grammatikakorrektori tööversioon: kohandada grammatikareegleid mittekorrektse sisendi analüüsiks, kirjutada tüüpiliste grammatikavigade tuvastamise reegleid, püüda luua liides andmevahetuseks mõne vabavaralise tekstiredaktori grammatikakorrektori liidesega. 2. Suulise keele süntaksianalüsaatori arendamine: kohandada morfoloogilise ühestamise reeglid suulise keele ühestamiseks. See võimaldab poolautomaatselt analüüsida suulise keele korpust ning teha katsetusi automaatse kõnetuvastuse väljundi edasise analüüsiga. 3. Murdetekstide süntaktiline analüüs. esialgsed katsed on näidanud, et suulise keele pindsüntaktilist analüsaatorit on kerge kohandada murdekorpuse tekstide pindsüntaktiliseks märgendamiseks (mitmesus 10%, vigu 3-5%). 4. Interneti keele (uue meedia keele) süntaktiline analüüs: kombineerides suulise ja kirjaliku keele analüsaatorit ning lisades internetis kasutatava keele omapära arvestavad reeglid on võimalik internetis leiduvaid spontaanseid tekste (foorumid, kommentaarid, Skype'i vestlused, jututoad) automaatselt analüüsida. 5. Õppijakeele süntaktiline analüüs: grammatikakorrektori arendamisega samaaegselt on võimalik luua eesti keelt võõrkeelena kõnelejate tüüpvigade tuvastajat. 6. Sügavamate sõltuvusseoste tuvastamine: luua grammatika, mis püüab leida sõnadevahelised grammatilised seosed ilmutatult. See on vajalik sügavamat süntaktilist analüüsi vajavate rakenduste loomiseks ning ka semantiliseks analüüsiks. Projekt on otseselt vajalik riikliku programmi grammatikakorrektori loomise (3.1.4) ja süntaktilise analüüsi täiustamise (3.1.9) alameesmärgide täitmiseks, lisaks on loodav tarkvara oluline mitmete teiste eespool mainitud keeletehnoloogiliste toodete arendamiseks. Projektis kasutatav ja edasiarendatav tarkvara on vabavaraline (vt http://beta.visl.sdu.dk/constraint_grammar.html), samasugust tehnoloogiat kasutatakse Lõuna-Taani ülikoolis taani ja portugali keele, Oslo ülikoolis norra keele ja Tromsø ülikoolis saami keele analüüsil.