"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-67
EKKTT09-67 "Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs (1.01.2009−31.12.2010)", Tiit Roosmaa, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-67
Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs
1.01.2009
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2009−31.12.2009451 680,00 EEK (28 867,61 EUR)
01.01.2010−31.12.2010420 000,00 EEK (26 842,89 EUR)
55 710,50 EUR

Automaatne süntaktiline analüüs on vajalik paljudele keeletehnoloogilistele rakendustele, alustades automaatsest grammatikavigade tuvastajast ning lõpetades dialoogsüsteemide ja masintõlkega. Süntaktilise analüüs mõiste on väga lai, kuid eesti keele kontekstis hõlmab see traditsiooniliselt lauseliikmete funktsiooni kindlaksmääramist. Vähem tuntud on morfoloogilise ühestamise seostamine süntaktilise analüüsiga: sõna kontektsi sobiva morfoloogilise tõlgenduse valimine kõigi võimalike seast (nt kas ilma on nimi-, määr- või kaassõna). Inimene teeb seda kuulates või lugedes instinktiivselt, kuid algoritmiliselt on see küllaltki keeruline probleem. Eesti keele jaoks on loodud nii pindsüntaktiline analüsaator kui ka reeglipõhine morfoloogiline ühestaja. Pindsüntaktiline analüsaator leiab 90protsendilise täpsusega iga sõna süntaktilise funktsiooni lauses, kuid ei leia sõnade omavahelisi täpseid seoseid ega lausestruktuuri. Nt. eestäiendina esinev sõna saab küll eestäiendi märgendi, kuid ei täpsustata, millist sõna ta täiendab. Pindsüntaktilise analüüsi reeglid arvestavad nii kirjaliku kui suulise keelega, esimesed katsed on tehtud ka murdekeelsete tekstidega. Morfoloogilise ühestaja reeglid on loodud ainult kirjaliku keele automaatse analüüsi jaoks. Projekti eesmärgiks on olemasolevale morfoloogilisele ühestajale ja pindsüntaktilisele analüsaatorile tuginedes luua: 1. Grammatikakorrektori tööversioon: kohandada grammatikareegleid mittekorrektse sisendi analüüsiks, kirjutada tüüpiliste grammatikavigade tuvastamise reegleid, püüda luua liides andmevahetuseks mõne vabavaralise tekstiredaktori grammatikakorrektori liidesega. 2. Suulise keele süntaksianalüsaatori arendamine: kohandada morfoloogilise ühestamise reeglid suulise keele ühestamiseks. See võimaldab poolautomaatselt analüüsida suulise keele korpust ning teha katsetusi automaatse kõnetuvastuse väljundi edasise analüüsiga. 3. Murdetekstide süntaktiline analüüs. esialgsed katsed on näidanud, et suulise keele pindsüntaktilist analüsaatorit on kerge kohandada murdekorpuse tekstide pindsüntaktiliseks märgendamiseks (mitmesus 10%, vigu 3-5%). 4. Interneti keele (uue meedia keele) süntaktiline analüüs: kombineerides suulise ja kirjaliku keele analüsaatorit ning lisades internetis kasutatava keele omapära arvestavad reeglid on võimalik internetis leiduvaid spontaanseid tekste (foorumid, kommentaarid, Skype'i vestlused, jututoad) automaatselt analüüsida. 5. Õppijakeele süntaktiline analüüs: grammatikakorrektori arendamisega samaaegselt on võimalik luua eesti keelt võõrkeelena kõnelejate tüüpvigade tuvastajat. 6. Sügavamate sõltuvusseoste tuvastamine: luua grammatika, mis püüab leida sõnadevahelised grammatilised seosed ilmutatult. See on vajalik sügavamat süntaktilist analüüsi vajavate rakenduste loomiseks ning ka semantiliseks analüüsiks. Projekt on otseselt vajalik riikliku programmi grammatikakorrektori loomise (3.1.4) ja süntaktilise analüüsi täiustamise (3.1.9) alameesmärgide täitmiseks, lisaks on loodav tarkvara oluline mitmete teiste eespool mainitud keeletehnoloogiliste toodete arendamiseks. Projektis kasutatav ja edasiarendatav tarkvara on vabavaraline (vt http://beta.visl.sdu.dk/constraint_grammar.html), samasugust tehnoloogiat kasutatakse Lõuna-Taani ülikoolis taani ja portugali keele, Oslo ülikoolis norra keele ja Tromsø ülikoolis saami keele analüüsil.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit RoosmaadoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia dotsent (1.00);EST / ENG01.01.2009−31.12.2009

Põhitäitjad (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Kaili MüürisepdoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia vanemteadur (1.00);EST / ENG01.01.2009−31.12.2010

Projektiga seotud tööjõud (14)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Eva Patune0,201.01.2010−31.12.2010
Helen Nigol0,301.01.2009−31.12.2009
Karol Toompalu0,2501.01.2010−31.12.2010
Katrin Tsepelina0,501.01.2010−31.12.2010
Krista Liin0,501.01.2009−31.12.2010
Kristel Uiboaed0,2501.01.2009−31.12.2010
Liina Linström0,2501.01.2009−31.12.2010
Mari Talvik0,201.01.2010−31.12.2010
Mark Fišel0,501.01.2010−31.12.2010
Raul Sirel0,101.01.2010−31.12.2010
Riin Kirt0,201.01.2010−31.12.2010
Tiina Puolakainen101.01.2010−31.12.2010
Tõnu Tamme0,101.01.2010−31.12.2010
Urve Talvik0,2501.01.2010−31.12.2010
Projektid
Projekt
EKKTT06-15; "Eestikeelne infodialoog arvutiga"; Mare Koit;
EKKTT06-17; "Eesti kõnekeele korpuse kogumine ja translitereerimine"; Tiit Hennoste;
EKKTT06-18; "Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid"; Tiit Roosmaa;
EKRM04-12; "Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid"; Tiit Roosmaa;
ETF7503; "Suhtlusstrateegiad suhtlusmudelis: eestikeelse dialoogi modelleerimine arvutil"; Mare Koit;
Publikatsioonid
Publikatsioonid
Müürisep, K.; Nigol, H. (2009). Shallow parsing of transcribed speech of Estonian and disfluency detection. In: Vetulani, Z.; Uszkoreit, H. (Ed.). Human Language Technology. Challenges of Information Society (165−177).. Springer-Verlag. (Lecture Notes in Artificial Intelligence).
Lindström, L.; Müürisep, K. (2009). Parsing corpus of Estonian dialects. Proceedings of the NODALIDA 2009 workshop Constraint Grammar and robust parsing, 8: NODALIDA 2009 workshop Constraint Grammar and robust parsing, Odense, Taani; 14.05.2009. Ed. Bick, E.; Hagen, K.; Müürisep, K.; Trosterud, T. Tartu: Tartu University Library,. (NEALT Proceedings Series).
Liin, K. (2009). Komavigade tuvastaja. Eslon, P.; Õim, K. (Toim.). Korpusuuringute metodoloogia ja märgendamise probleemid (99−114).. Tallinn: Tallinna Ülikooli Kirjastus. (Tallinna Ülikooli eesti keele ja kultuuri instituudi toimetised).
Dickinson, M.; Müürisep, K.; Passarotti, M. (2010). Proceedings of the ninth international workshop on treebanks and linguistic theories. Tartu: Northern European Association for Language Technology (NEALT).
Juhendamised
Juhendamised
Kadri Kajaste, magistrikraad, 2009, (juh) Kaili Müürisep, Eestikeelsete tekstide morfoloogiline ühestamine, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut.