"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-64
EKKTT09-64 "Masintõlge 2 (1.01.2009−31.12.2010)", Heiki-Jaan Kaalep, Tartu Ülikool, Filosoofiateaduskond.
EKKTT09-64
Masintõlge 2
1.01.2009
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH352 Grammatika, semantika, semiootika, süntaks 6.2. Keeleteadus ja kirjandus50,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2010
PerioodSumma
01.01.2009−31.12.2009781 030,00 EEK (49 916,91 EUR)
01.01.2010−31.12.2010720 000,00 EEK (46 016,39 EUR)
95 933,30 EUR

Projekti eesmärgiks on parandada olemasoleva masintõlke kvaliteeti. Selleks on kavas kolm suunda: 1. Kasutada keelespetsiifilist tarkvara 2. Kasutada tagasisidet ja alternatiivide võrdlemist 3. Kombineerida erineval moel treenitud programmiversioone ja valida väljund mitme variandi hulgast. Masintõlke olukord on praegu järgmine: On olemas Google’i tõlketeenus, kus on üle 40 omavahel tõlgitava keele, s.h. ka eesti keel: http://translate.google.com/ On olemas TÜs loodud eesti-inglise statistilise masintõlke katseversioon; proovida saab aadressil: http://ats.cs.ut.ee/smt/translate/ Nii Google’i kui TÜ versioon kasutavad statistilist masintõlkemeetodit. Mitmete katsete tulemusena, kus prooviti erinevaid korpusi ja erinevaid morfoloogilise analüüsi viise, on selgunud, et: 1. Eestikeelsete sõnade morfoloogiline analüüs, mille käigus sõnad on tükeldatud tüvedeks ja lõppudeks, aitab kaasa õigete ingliskeelsete fraaside leidmisele ja seega ka paremale tõlkele. 2. See ei aita parandada tõlkeprobleeme, mille põhjuseks on eesti ja inglise keele erinev sõnajärg. Antud teemal on Harri Kirik kaitsnud bakalaureusetöö: http://math.ut.ee/~harts/thesis.html Sõnajärje probleemid on ühesugused nii Google-i kui TÜ masintõlkijal. Näiteks eestikeelset lauset "võõrkeelte, sealhulgas vähemusrahvuste keelte kasutamise riigiasutuses ning kohtu- ja kohtueelses menetluses sätestab seadus" tõlgib Google järgmiselt: "foreign languages, including the use of minority languages and the state court - and the pre-trial proceedings provided by law" TÜ masintõlge on järgmine: "foreign languages including languages of national minorities use of state agencies and of the court and pre-trial proceedings shall be provided by law" Tegelik tõlge paralleelkorpusest oli järgmine: "the use of foreign languages, including the languages of national minorities, in state agencies and in court and pre-trial procedure shall be provided by law" Näeme, et masintõlkijad järgivad algteksti sõnade järjekorda üsna ühesugusel moel ja et teksti mõte muutub seetõttu üsna segaseks. Eesti ja inglise keele sõnajärje erinevusest tingitud probleemide lahendamiseks proovime kasutada süntaktilist analüüsi. Süntaksianalüsaatori väljund võetakse statistilise masintõlkesüsteemi Moses töös arvesse kui üks tõlget mõjutav faktor. Inglise keele süntaksi analüüsiks on plaanis kasutada firma Connexor analüsaatorit, mille väljundiks on sõltuvuspuud. Eesti keele süntaksi analüüsiks on kavas kasutada TÜs EKKTT projekti „Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid“ raames loodud analüsaatorit. Mõlema analüsaatori kasutusõigus on TÜl olemas. Masintõlke parandamine tagasiside kaudu toimuks järgmiselt. Olemasolevale veebiversioonile lisatakse tagasiside vorm, nii et kasutajad saavad kas valida oma eelistuse (erinevate mudelite ja korpuste osas) või pakkuda lausa oma tõlget. Sel moel luuakse uus ja kasutajate vajadustele sobiv paralleelkorpus. Projekti tulemusel loodav tõlkija on kõigile interneti kaudu tasuta kasutatav. Projekti käigus loodavad lingvistiliselt töödeldud korpused on samuti kõigile vabalt kasutatavad. On ette näha, et korpused pakuvad huvi nii leksikonide tegijatele kui lingvistilise tarkvara (nt. süntaksi analüsaator) loojatele kui test- ja treeningmaterjal. Taotletavale projektile eelneva projekti, "Masintõlge 1" käigus loodud korpuste kasutamisest on huvitatud käesoleval aastal rahastamist taotlev projekt "Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil", taotleja Maarika Traat. Juhul, kui see projekt saab rahastamise, siis saab tema töö tulemusi omakorda kasutada käesolevas projektis nii korpuste täiustamiseks kui ka masintõlke parandamiseks. Projektis kasutatakse maailmas praegu enim levinud statistilist masintõlkesüsteemi Moses, mis on vabavara. Kõik projekti käigus loodavad ressursid peavad antud platvormiga ühilduma ja vastavad seega de facto standardile.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Heiki-Jaan KaalepdoktorikraadTartu Ülikool; Vanemteadur (1.00);EST / ENG01.01.2009−31.12.2009

Põhitäitjad (2)

IsikKraadTöökoht ja ametCVOsalemise periood
Mark FišeldoktorikraadEST / ENG01.01.2009−31.12.2010
Kaarel Veskismagistrikraad (teaduskraad)EST / ENG01.01.2009−31.12.2010

Projektiga seotud tööjõud (4)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Harri Kirikmagistrant10,201.01.2009−31.12.2010
Katrin Tsepelinaprogrammeerija0,750,2501.01.2009−31.12.2010
Liisi Pool0,1501.01.2010−31.12.2010
Tarmo VainoTartu Ülikoolprogrammeerija0,30,701.01.2010−31.12.2010
Publikatsioonid
Publikatsioonid
Fishel, M. (2009). Deeper than Words: Morph-based Alignment for Statistical Machine Translation. Proceedings of PacLing 2009: PacLing 2009, Sapporo, Jaapan, 1.-4. september 2009. University of Hokkaido, 6.
Fishel, M.; Nivre, J. (2009). Voting and Stacking in Data-Driven Dependency Parsing. Proceedings of the 17th Nordic Conference on Computational Linguistics NODALIDA'2009: 17th Nordic Conference on Computational Linguistics NODALIDA'2009; Odense, Denmark; 14-16 May 2009. Ed. Kristiina Jokinen, Eckhard Bick. 219−222.
Fishel, Mark; Kaalep, Heiki-Jaan (2010). CorporAl: a Method and Tool for Handling Overlapping Parallel Corpora. The Prague Bulletin of Mathematical Linguistics, 94, 67−76.
Kaalep, Heiki-Jaan; Koit, Mare (2010). Kuidas masin tõlgib. Keel ja Kirjandus, 10, 726−738.
Fishel, M.; Kirik, H. (2010). Linguistically Motivated Unsupervised Segmentation for Machine Translation. In: Proceedings of the International Conference on Language Resouces and Evaluation (1741−1745).. ELRA.
Fishel, Mark (2010). Simpler is Better: Re-evaluation of Default Word Alignment Models in Statistical MT. Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation: The 24th Pacific Asia Conference on Language, Information and Computation; Tohoku University, Sendai, Japan; November 4th-7th, 2010. Waseda University Library Institutional Repository, 381−388.
Fishel, Mark (2010). Joint Unsupervised Learning of Parallel Sequence Alignment and Segmentation. Proceedings of the 2nd Asian Conference on Machine Learning: The 2nd Asian Conference on Machine Learning; Tokyo, Japan; 2010.
Tsepelina, K.; Veskis, K. (2010). Paralleelkorpuspõhine tõlkeabisüsteem internetis. Keel ja Kirjandus, 11, 820−835.
Juhendamised
Juhendamised
Kaarel Veskis, magistrikraad (teaduskraad), 2007, (juh) Heiki-Jaan Kaalep, Paralleelkorpused arvutilingvistikas: leksikonide genereerimine ja korpuste võrdlemine, Tartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond.
Mark Fišel, (juh) Mare Koit, Unsupervised Machine Learning in Language Technology, .
Harri Kirik, magistrikraad, 2010, (juh) Mark Fišel, Keelemudelipõhised parandused statistilises masintõlkes, Tartu Ülikool.