"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-64
EKKTT09-64 "Masintõlge 2 (1.01.2009−31.12.2010)", Heiki-Jaan Kaalep, Tartu Ülikool, Filosoofiateaduskond.
EKKTT09-64
Masintõlge 2
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH352 Grammatika, semantika, semiootika, süntaks 6.2. Keeleteadus ja kirjandus50,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2010
PerioodSumma
01.01.2009−31.12.2009781 030,00 EEK (49 916,91 EUR)
01.01.2010−31.12.2010720 000,00 EEK (46 016,39 EUR)
95 933,30 EUR

Projekti eesmärgiks on parandada olemasoleva masintõlke kvaliteeti. Selleks on kavas kolm suunda: 1. Kasutada keelespetsiifilist tarkvara 2. Kasutada tagasisidet ja alternatiivide võrdlemist 3. Kombineerida erineval moel treenitud programmiversioone ja valida väljund mitme variandi hulgast. Masintõlke olukord on praegu järgmine: On olemas Google’i tõlketeenus, kus on üle 40 omavahel tõlgitava keele, s.h. ka eesti keel: http://translate.google.com/ On olemas TÜs loodud eesti-inglise statistilise masintõlke katseversioon; proovida saab aadressil: http://ats.cs.ut.ee/smt/translate/ Nii Google’i kui TÜ versioon kasutavad statistilist masintõlkemeetodit. Mitmete katsete tulemusena, kus prooviti erinevaid korpusi ja erinevaid morfoloogilise analüüsi viise, on selgunud, et: 1. Eestikeelsete sõnade morfoloogiline analüüs, mille käigus sõnad on tükeldatud tüvedeks ja lõppudeks, aitab kaasa õigete ingliskeelsete fraaside leidmisele ja seega ka paremale tõlkele. 2. See ei aita parandada tõlkeprobleeme, mille põhjuseks on eesti ja inglise keele erinev sõnajärg. Antud teemal on Harri Kirik kaitsnud bakalaureusetöö: http://math.ut.ee/~harts/thesis.html Sõnajärje probleemid on ühesugused nii Google-i kui TÜ masintõlkijal. Näiteks eestikeelset lauset "võõrkeelte, sealhulgas vähemusrahvuste keelte kasutamise riigiasutuses ning kohtu- ja kohtueelses menetluses sätestab seadus" tõlgib Google järgmiselt: "foreign languages, including the use of minority languages and the state court - and the pre-trial proceedings provided by law" TÜ masintõlge on järgmine: "foreign languages including languages of national minorities use of state agencies and of the court and pre-trial proceedings shall be provided by law" Tegelik tõlge paralleelkorpusest oli järgmine: "the use of foreign languages, including the languages of national minorities, in state agencies and in court and pre-trial procedure shall be provided by law" Näeme, et masintõlkijad järgivad algteksti sõnade järjekorda üsna ühesugusel moel ja et teksti mõte muutub seetõttu üsna segaseks. Eesti ja inglise keele sõnajärje erinevusest tingitud probleemide lahendamiseks proovime kasutada süntaktilist analüüsi. Süntaksianalüsaatori väljund võetakse statistilise masintõlkesüsteemi Moses töös arvesse kui üks tõlget mõjutav faktor. Inglise keele süntaksi analüüsiks on plaanis kasutada firma Connexor analüsaatorit, mille väljundiks on sõltuvuspuud. Eesti keele süntaksi analüüsiks on kavas kasutada TÜs EKKTT projekti „Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid“ raames loodud analüsaatorit. Mõlema analüsaatori kasutusõigus on TÜl olemas. Masintõlke parandamine tagasiside kaudu toimuks järgmiselt. Olemasolevale veebiversioonile lisatakse tagasiside vorm, nii et kasutajad saavad kas valida oma eelistuse (erinevate mudelite ja korpuste osas) või pakkuda lausa oma tõlget. Sel moel luuakse uus ja kasutajate vajadustele sobiv paralleelkorpus. Projekti tulemusel loodav tõlkija on kõigile interneti kaudu tasuta kasutatav. Projekti käigus loodavad lingvistiliselt töödeldud korpused on samuti kõigile vabalt kasutatavad. On ette näha, et korpused pakuvad huvi nii leksikonide tegijatele kui lingvistilise tarkvara (nt. süntaksi analüsaator) loojatele kui test- ja treeningmaterjal. Taotletavale projektile eelneva projekti, "Masintõlge 1" käigus loodud korpuste kasutamisest on huvitatud käesoleval aastal rahastamist taotlev projekt "Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil", taotleja Maarika Traat. Juhul, kui see projekt saab rahastamise, siis saab tema töö tulemusi omakorda kasutada käesolevas projektis nii korpuste täiustamiseks kui ka masintõlke parandamiseks. Projektis kasutatakse maailmas praegu enim levinud statistilist masintõlkesüsteemi Moses, mis on vabavara. Kõik projekti käigus loodavad ressursid peavad antud platvormiga ühilduma ja vastavad seega de facto standardile.