"Riiklik programm: Eesti keeletehnoloogia" projekt EKT67
EKT67 "Sihipärane süntaks korpuste jaoks (1.01.2015−31.12.2017)", Kadri Muischnek, Tartu Ülikool, Loodus- ja täppisteaduste valdkond, Arvutiteaduse instituut.
EKT67
Sihipärane süntaks korpuste jaoks
1.01.2015
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT121 Signaalitöötlus 2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2015−31.12.201580 000,00 EUR
01.01.2016−31.12.201671 235,00 EUR
151 235,00 EUR

Projektil on kaks fookust: parem süntaktiline analüüs ja paremini märgendatud korpused. Oluline on ka ühilduvus rahvusvaheliste standarditega, st valitud, sobivate ja eesti keele seisukohalt perspektiivikamate standarditega ning sellest tulenevalt paremad võimalused keelte mitmetasandiliseks uurimiseks/võrdluseks ja eesti keele analüüsiks mitmekeelse keeletöötluse kontekstis. 1. Parem süntaks ja süntaksipõhised tööriistad. Süntaksianalüsaatori ja puudepanga märgendite süsteem on vaja viia vastavusse nn Universal Dependencies' märgendisüsteemiga. Kõigepealt on kavas teisendada Universal Dependencies’ kujule käsitsi loodud sõltuvuspuude pank (400 000 sõna), selle peal treenida MaltParseri vastav versioon ja sellega märgendada suured korpused. Luua samaviiteliste väljendite (coreference) lahendaja; täpsemalt kavatsetakse tegelda isikuliste asesõnade ja tekstis esinevate samaviiteliste nimisõnade lahendamisega juhul, kui neid on võimalik lahendada teksti põhjal, st lahendamine ei eelda nn maailmateadmust või asesõna ei viita tekstist välja, situatsioonile. Luua eeldused eesti keele olemasolevate analüüsivahendite kasutamiseks projekti SAMEST raames, milles luuakse reeglipõhist masintõlketarkvara soome, saami ja eesti keelte vahel tõlkimiseks. Seal kasutatav, nn Giellatekno formaat on samuti kasutusel mitmes keeleõppeprogrammis. Olemasolevate süntaktilise analüüsi vahendite edasiarendamine: luua süntaktilise analüüsi eeltöötlusmoodul, mis näiteks parandab hullemad lausestusvead, ühendab arvud (mis on korpuses sageli keskelt lahku tõstetud, nt 100 000), meiliaadressid, veebilehekülgede aadressid ja silub muud spetsiifilised tehnilised nüansid. Oluline on ka kohandada sõltuvussüntaktilist analüsaatorit erinevate allkeelte analüüsiks (etTenTen allkorpused), kusjuures eesmärgiks ei ole ainult etTenTen märgenduse parandamine, vaid oletame, et etTenTen esindab eestikeelse interneti tekstiklasse adekvaatselt, st loome tööriista eestikeelse interneti analüüsiks. Sõltuvussüntaktilise analüsaatori praeguse versiooni üheks puuduseks on nn perifeersete konstruktsioonide, erandlike poolkivistunud fraaside paremaks süntaktiliseks analüüsiks kavatsetakse katsetada sagedaste süntaktiliste konstruktsioonide tuletamist või väljasõelumist tekstikorpusest ja neile sõltuvusalüüsi andmist. Erandlike süntaktiliste konstruktsioonide all on siin mõeldud nii täisleksikaalseid konstruktsioone (nt miks ka mitte), semileksikaalseid konstruktsioone kui ka ainult grammatiliste kategooriate koosesinemisena defineeritud struktuure (nt süntaktiline konstruktsioon ‘olema_neg S_part V_dainf’ esindab väljendeid ‘polnud mõtet minna', 'ei ole tahtmist teha’). Selliste konstruktsioonide tuvastamine aitab luua nii uusi süntaktilise analüüsi reegleid kui on ka allikas masintõlke parandamiseks. 2. Paremad korpused Planeeritakse töid etTenTen korpusega (parem tekstiklassideks liigitamine, parem morfoloogiline analüüs, sõltuvussüntaktiline analüüs), kusjuures sihiks on töötlemise ja märgendamise käigus ka korpust uurida. EtTenTeni kallal töötamise eesmärgid on esiteks luua lingvistile parem uurimismaterjal ja teiseks luua test- ja treeningkorpused allkeelte kaupa keeletehnoloogiliste moodulite loomiseks. Projekti raames arendatavast tarkvarast uute versioonide valmimisel märgendatakse nendega üle ka Koondkorpus Korpuste kasutusvõimaluste parandamiseks tuleb Keeleveebi kasutajaliides teha ümber nii, et päringuid saab esitada ka grammatiliste kategooriate kombinatsioonide kohta. Korpuste uue märgendusega versioonid tehakse kättesaadavaks ka Keeleveebi kaudu. Seotud projektid: Kavandatava projekti töö on seotud projektiga EKT57 EstNLTK: Pythoni teegid eestikeelsete vabatektside lihtsamaks töötlemiseks, mille raames loodud EstNLTK mooduleid kavatseme kasutada Koondkorpuse ja etTenTeni ülemärgendamiseks. Sellel on kaks eesmärki: esiteks – saada paremad korpused (nt on teada, et EstNLTK osalausestaja väljund on järjekindlam kui Koondkorpuse projektis seni kasutatu), teiseks – kontrollida mooduleid suuremahulisel materjalil. Kavandatava projekti üheks planeeritud tegevuseks on samaviiteliste nimisõnade lahendamine, selleks kavatsetakse kasutada ka eesti Wordnetis sisalduvat infot (sünonüümid, ülemmõisted), st seotud projekt on EKT 2 „Eesti Wordneti täiendamine” ja selle kavandatav jätkuprojekt. Kavandatav projekt on seotud veel kahe taotletava projektiga. Esimene neist, töönimega „Praktiline masintõlge”, puudutab masintõlget, mille raames plaanitakse mh süntaksipõhist ja osalise süntaksi põhist masintõlget; teine tegeleb eesti Verbneti koostamisega; selle projekti tulemusi loodame tulevikus kasutada süntaksianalüüsi täiustamisel. Taotletav projekt on seotud ka Eesti-Norra ühisprojektiga Samest (http://www.cs.ut.ee/en/projects/samest) 2013-2016. Projekti eesmärgiks on luua eesti-soome reeglipõhine masintõlkesüsteem Apertiumi baasil ja eesti keele õppetoe süsteem Oahpa (http://giellatekno.uit.no/ped/estdoc/EstonianOahpa.html)