"Riiklik programm: Eesti keeletehnoloogia" projekt EKT7
EKT7 "Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele) (1.01.2011−31.12.2014)", Kadri Muischnek, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT7
Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele)
1.01.2011
31.12.2014
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2011−31.12.201197 500,00 EUR
01.01.2012−31.12.201285 000,00 EUR
01.01.2013−31.12.201386 500,00 EUR
01.01.2014−31.12.201486 500,00 EUR
355 500,00 EUR

Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks. Taotletaval projektil on kaks alameesmärki. Esiteks luua stabiilselt töötavad versioonid olemasolevatest tarkvaraprototüüpidest. Selleks testitakse olemasolevat tarkvara erinevat tüüpi tekstidel, seejuures ilmnevad vead, puudused ja iseärasused parandatakse ja/või dokumenteeritakse. Kaardistatakse ka teoreetilised ja praktilised probleemid, millele prototüüpe luues ei osatud piisavalt tähelepanu pöörata. Projekti teiseks eesmärgiks on olemasoleva keeleressursi - Koondkorpuse - täiustamine ja selle kasutusvõimaluste avardamine. Prototüüpide testimise käigus lisatakse korpusele mitu märgenduskihti. Täiustatakse Koondkorpuse kasutajaliideseid ning esitatakse valmis kujul korpuse leksikaalsete ja grammatiliste kategooriate statistilise analüüsi tulemused. Projekt ühendab endas lõppenud riikliku programmi „Eesti keele keeletehnoloogiline tugi“ projektide „Eesti keele koondkorpus“, „Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs“, „Korpusepäring Keeleveebis“ ja osaliselt „Lihtlause semantiline analüüs“ tulemuste edasiarendamist. Kasutatavaks keeletehnoloogiliseks tarkvaraks on erinevatel ajajärkudel erinevate autorite poolt loodud programmid. Projekti käigus loodav tarkvara on avatud lähtekoodiga vaba tarkvara (kasutatakse CLARINI ja META-NETi tüüplitsentse). Keeleressursid st märgendatud Koondkorpus ja selle põhjal tehtud loendid, leksikonid jms saavad olema vabalt kasutatavad mitte-ärilistel eesmärkidel (kasutatakse CLARINI ja META-NETi tüüplitsentse). Konkreetsed märgenduskihid - Morfoloogiline. Stabiilselt töötav analüsaator ja ühestaja on olemas (Filosoftilt); tema väljundit saab kasutada teiste märgenduskihtide loomiseks. Märgenduskiht on olemas, projekti raames uut morfoloogilist märgendamist ei planeerita. Vajalik on aga morfoloogilise ühestamise protsessi täiustamine. - Süntaktiline. Süntaktilise analüüsi jaoks on olemas kitsenduste grammatikal põhinev pindmine süntaksianalüsaator. Pindmise analüüsi põhjal leiab süvasüntaksianalüsaator ka lause sõltuvusstruktuuri (lausepuu või osalised puufragmendid). See analüsaatori versioon ei ole veel stabiilne ja vajab edasiarendamist. Lisaks puustruktuurile on väga oluline lause märgendamine väiksemate ühikute tasandil (osalaused, lauselühendid jne). Süntaksianalüsaatorit on vaja kohandada mittestandardse keele (nt uue meedia keele, õppijakeele) analüüsimiseks ja täiendada standardist erinevate kohtade osaliseks märgendamiseks (nt tunneb ära osalausepiiri, kui lauses puuduvad komad). Süntaktilisse analüüsi saab integreerida ka liikumisfreimide freimileksikoni (H. Õim jt) ning sealseid semantilisi rolle kasutada liikumisverbidega lausete lihtsustatud semantilisel märgendamisel. - Praktiline semantiline analüüs. See on teatud semantiliste klasside, nt. nimede, ajaväljendite, teatud liiki asjade (nt autode, elukutsete, keemiliste ainete) esinemisjuhtude märgendamine tekstis. Nimede ja ajaväljendite märgendamiseks on saab aluseks võtta töö, mille on teinud S. Orasmaa, A. Tkatšenko, M. Treumuth, P. Küngas. Konkreetsed prototüübid tuleb luua ja eri tüüpi tekstidel testida. - Teksti tüüp. Tekst võib oma tüübilt olla formaalne või mitteformaalne; kirjakeelne või mitte. Teksti tüübi teadmine on oluline selleks, et programmid saaksid seda arvestada. Kui nt tekstis suurtähti ei kasutata, siis tuleb lausete ja nimede eristamiseks kasutada muid tunnuseid; teadustekstis tuleb leksikonist puuduvate sõnade analüüsiks kasutada teistsuguseid heuristikuid kui mitteformaalse netikeele puhul. Märgenduskihid lisatakse ka Keeleveebi korpusele, nii et neid saab päringu esitamisel kasutada; nt. saab esitada päringu „leia kõik laused, kus esineb „läbi“ ja „kukkuma“ ja mingi organisatsioon“. Koondkorpuse korrastamine, dokumenteerimine, kehtivatele standarditele üleviimine on kooskõlas rahvusvahelise keeleressursside standardiseerimise projekti META-NET eesmärkidega. Mitmekihiliselt märgendatud Koondkorpus on vajalik väga erinevate eesti keele keeletehnoloogiliste programmide väljatöötamiseks. Loodav süntaktiline ja semantiline märgenduskiht on olulised masintõlkeprogrammide loomisel. Ülaltoodud ülesannete täitmiseks kombineeritakse kompetents kahest asutusest, mis on ka varem EKKTT projektides osalenud – Tartu Ülikoolist ja Filosoftist. Arvestades EKT projektide taotlemise korda, on TÜ ja Filosoft leppinud kokku, et TÜ on põhitaotleja ja Filosoft allhankija.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Kadri Muischnekdoktorikraad<span id="32924">Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; Vanemteadur (0.75)</span><br/><span id="32925">Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Dotsent (0.25)</span><br/>EST / ENG01.01.2011−31.12.2013

Põhitäitjad (7)

IsikKraadTöökoht ja ametCVOsalemise periood
Riin Kirtmagistrikraad<span id="57175">Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; arvutilingvistika spetsialist (1.00)</span><br/>EST / ENG01.01.2011−31.12.2014
Kaili Müürisepdoktorikraad<span id="63792">Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia vanemteadur (1.00)</span><br/>EST / ENG01.02.2011−31.12.2014
Liisi PoolEST / ENG01.01.2011−31.12.2011
Tiina Puolakainendoktorikraad<span id="57163">Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; spetsialist (1.00)</span><br/>EST / ENG01.01.2011−31.12.2014
Katrin Tsepelina<span id="31493">Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00)</span><br/>EST / ENG01.01.2011−31.12.2013
Kristel UiboaeddoktorikraadEST / ENG01.01.2011−31.12.2013
Tarmo Vaino<span id="73612">Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; programmeerija (1.00)</span><br/>EST / ENG01.01.2011−31.12.2014

Projektiga seotud tööjõud (4)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Dage Särgmagistrant0,501.01.2014−31.12.2014
Eleri Aedmaamagistrant0,501.01.2014−31.12.2014
Krista Liindoktorant0,5101.01.2011−31.12.2014
Raul Sireldoktorant0,2501.01.2011−31.12.2014
Projektid
Projekt
EKKTT10-74; "Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine"; Kadri Muischnek;
EKT22; "Mallipõhine faktituletus tekstikorpustest"; Sven Laur;
IUT20-56; "Eesti keele arvutimudelid"; Heiki-Jaan Kaalep;
MMTAT11102; "META-NORD - Euroopa avatud lingvistilise infrastrukuuri Balti- ja Põhjamaade haru"; Kadri Vider;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Puolakainen, Tiina (2012). How Does the Choice of Morphological Analyser Influence the Quality of Syntactical Analysis? In: Tavast, Arvi; Muischnek, Kadri; Koit, Mare (Ed.). Human Language Technologies – The Baltic Perspective (193−200).. IOS Press.10.3233/978-1-61499-133-5-193.
Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Osalausete tuvastamine eestikeelses tekstis kui iseseisev ülesanne. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (55−68).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.04.
Kaalep, Heiki-Jaan; Kirt, Riin; Muischnek, Kadri (2012). A trivial method for choosing the right lemma. In: Tavast, Arvi; Muischnek, Kadri; Koit, Mare (Ed.). Human Language Technologies – The Baltic Perspective (82−89). IOS Press.10.3233/978-1-61499-133-5-82.
Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Robust clause boundary identification for corpus annotation. In: Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mar (Ed.). Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) (1632−1636).. Istanbul, Türgi: ELRA.
Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina (2013). Estonian particle verbs and their syntactic analysis. Human Language Technologies as a Challenge for Computer Science and Linguistics: 6Th Language & Technology Conference Proceedings. December 7-9, Poznan, Poland. Ed. Zygmunt Vetulani and Hans Uszkoreit. Poznan: Adam Mickiewicz University, 338−342.
Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina (2014). Ühendverbid eesti keele pindsüntaktilises analüüsis. Eesti Rakenduslingvistika Ühingu aastaraamat, 10, 227−240.10.5128/erya.v0i10.264.
Muischnek, Kadri;Müürisep, Kaili; Puolakainen, Tiina; Aedmaa, Eleri; Kirt, Riin; Särg, Dage (2014). Estonian Dependency Treebank and its annotation scheme. In: Verena Henrich, Erhard Hinrichs, Daniël de Kok, Petya Osenova, Adam Przepiórkowski (Ed.). Proceedings of the Thirteenth International Workshop on Treebanks and Linguistic Theories (TLT13) (285−291).. Tübingen, Saksamaa: University of Tübingen.
Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina (2014). Dependency Parsing of Estonian: Statistical and Rule-based Approaches. Human Language Technologies – The Baltic Perspective: the Sixth International Conference “Human Language Technologies – The Baltic Perspective”, Kaunas, Leedu, 26–27 September 2014. Ed. Andrius Utka, Gintarė Grigonytė, Jurgita Kapočiūtė-Dzikienė, Jurgita Vaičenonienė. Amsterdam: IOS Press, 111−118. ( Frontiers in Artificial Intelligence and Applications; 268).10.3233/978-1-61499-442-8-111.
Juhendamised
Juhendamised
Kristel Uiboaed, (juh) Kadri Muischnek; Liina Lindström, Verbiühendid eesti murrete korpuses, .