"Riiklik programm: Eesti keeletehnoloogia" projekt EKT7
EKT7 "Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele) (1.01.2011−31.12.2014)", Kadri Muischnek, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT7
Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele)
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2011−31.12.201197 500,00 EUR
01.01.2012−31.12.201285 000,00 EUR
01.01.2013−31.12.201386 500,00 EUR
01.01.2014−31.12.201486 500,00 EUR
355 500,00 EUR

Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks. Taotletaval projektil on kaks alameesmärki. Esiteks luua stabiilselt töötavad versioonid olemasolevatest tarkvaraprototüüpidest. Selleks testitakse olemasolevat tarkvara erinevat tüüpi tekstidel, seejuures ilmnevad vead, puudused ja iseärasused parandatakse ja/või dokumenteeritakse. Kaardistatakse ka teoreetilised ja praktilised probleemid, millele prototüüpe luues ei osatud piisavalt tähelepanu pöörata. Projekti teiseks eesmärgiks on olemasoleva keeleressursi - Koondkorpuse - täiustamine ja selle kasutusvõimaluste avardamine. Prototüüpide testimise käigus lisatakse korpusele mitu märgenduskihti. Täiustatakse Koondkorpuse kasutajaliideseid ning esitatakse valmis kujul korpuse leksikaalsete ja grammatiliste kategooriate statistilise analüüsi tulemused. Projekt ühendab endas lõppenud riikliku programmi „Eesti keele keeletehnoloogiline tugi“ projektide „Eesti keele koondkorpus“, „Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs“, „Korpusepäring Keeleveebis“ ja osaliselt „Lihtlause semantiline analüüs“ tulemuste edasiarendamist. Kasutatavaks keeletehnoloogiliseks tarkvaraks on erinevatel ajajärkudel erinevate autorite poolt loodud programmid. Projekti käigus loodav tarkvara on avatud lähtekoodiga vaba tarkvara (kasutatakse CLARINI ja META-NETi tüüplitsentse). Keeleressursid st märgendatud Koondkorpus ja selle põhjal tehtud loendid, leksikonid jms saavad olema vabalt kasutatavad mitte-ärilistel eesmärkidel (kasutatakse CLARINI ja META-NETi tüüplitsentse). Konkreetsed märgenduskihid - Morfoloogiline. Stabiilselt töötav analüsaator ja ühestaja on olemas (Filosoftilt); tema väljundit saab kasutada teiste märgenduskihtide loomiseks. Märgenduskiht on olemas, projekti raames uut morfoloogilist märgendamist ei planeerita. Vajalik on aga morfoloogilise ühestamise protsessi täiustamine. - Süntaktiline. Süntaktilise analüüsi jaoks on olemas kitsenduste grammatikal põhinev pindmine süntaksianalüsaator. Pindmise analüüsi põhjal leiab süvasüntaksianalüsaator ka lause sõltuvusstruktuuri (lausepuu või osalised puufragmendid). See analüsaatori versioon ei ole veel stabiilne ja vajab edasiarendamist. Lisaks puustruktuurile on väga oluline lause märgendamine väiksemate ühikute tasandil (osalaused, lauselühendid jne). Süntaksianalüsaatorit on vaja kohandada mittestandardse keele (nt uue meedia keele, õppijakeele) analüüsimiseks ja täiendada standardist erinevate kohtade osaliseks märgendamiseks (nt tunneb ära osalausepiiri, kui lauses puuduvad komad). Süntaktilisse analüüsi saab integreerida ka liikumisfreimide freimileksikoni (H. Õim jt) ning sealseid semantilisi rolle kasutada liikumisverbidega lausete lihtsustatud semantilisel märgendamisel. - Praktiline semantiline analüüs. See on teatud semantiliste klasside, nt. nimede, ajaväljendite, teatud liiki asjade (nt autode, elukutsete, keemiliste ainete) esinemisjuhtude märgendamine tekstis. Nimede ja ajaväljendite märgendamiseks on saab aluseks võtta töö, mille on teinud S. Orasmaa, A. Tkatšenko, M. Treumuth, P. Küngas. Konkreetsed prototüübid tuleb luua ja eri tüüpi tekstidel testida. - Teksti tüüp. Tekst võib oma tüübilt olla formaalne või mitteformaalne; kirjakeelne või mitte. Teksti tüübi teadmine on oluline selleks, et programmid saaksid seda arvestada. Kui nt tekstis suurtähti ei kasutata, siis tuleb lausete ja nimede eristamiseks kasutada muid tunnuseid; teadustekstis tuleb leksikonist puuduvate sõnade analüüsiks kasutada teistsuguseid heuristikuid kui mitteformaalse netikeele puhul. Märgenduskihid lisatakse ka Keeleveebi korpusele, nii et neid saab päringu esitamisel kasutada; nt. saab esitada päringu „leia kõik laused, kus esineb „läbi“ ja „kukkuma“ ja mingi organisatsioon“. Koondkorpuse korrastamine, dokumenteerimine, kehtivatele standarditele üleviimine on kooskõlas rahvusvahelise keeleressursside standardiseerimise projekti META-NET eesmärkidega. Mitmekihiliselt märgendatud Koondkorpus on vajalik väga erinevate eesti keele keeletehnoloogiliste programmide väljatöötamiseks. Loodav süntaktiline ja semantiline märgenduskiht on olulised masintõlkeprogrammide loomisel. Ülaltoodud ülesannete täitmiseks kombineeritakse kompetents kahest asutusest, mis on ka varem EKKTT projektides osalenud – Tartu Ülikoolist ja Filosoftist. Arvestades EKT projektide taotlemise korda, on TÜ ja Filosoft leppinud kokku, et TÜ on põhitaotleja ja Filosoft allhankija.