"Riiklik programm: Eesti keeletehnoloogia" projekt EKT11
EKT11 "Uued ressursid masintõlkes (1.01.2011−31.12.2013)", Heiki-Jaan Kaalep, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT11
Uued ressursid masintõlkes
1.01.2011
31.12.2013
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus20,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)80,0
PerioodSumma
01.01.2011−31.12.201147 000,00 EUR
01.01.2012−31.12.201240 000,00 EUR
01.01.2013−31.12.201340 000,00 EUR
127 000,00 EUR

Projektide Masintõlge 1 ja 2 tulemusena on TÜ masintõlkealase (http://masintolge.ut.ee) töö olukord järgmine. 1. On paigaldatud ja testitud platvormid SMT eksperimentide läbiviimiseks: fraasipõhine SMT (Moses) ja hierarhiline fraasipõhine SMT (Joshua). 2. On katsetatud Mosese platvormil SMT süsteemide loomist. 2.1. Tõlkemudeli treenimiseks kasutati ainult paralleelkorpusi (s.t. varemtehtud sõnastikke ei kasutatud). Katsetati morfoloogilise analüüsi arvessevõtmist, et tulla toime eestikeelsete sõnade muutevormide rohkusega. Kui korpus oli väike ja esindas loomulikku keelt (subtiitrid), siis oli sellest kasu; kuid kui korpus oli suur ja esindas ebaloomulikku keelt (EL seadusandlikud tekstid JRC-Acquis’ korpusest), siis tulemuste paranemist ei saavutatud. 2.2. Keelemudeli treenimiseks kasutati paralleelkorpusi, millel rakendati üldistatud morfosüntaktiliste kategooriate abil sõnajärje modelleerimist. Kui korpus esindas EL seadusandlust (JRC-Acquis), siis tulemuste paranemist ei saavutatud; loomulikuma keele korpuste puhul aga tulemus veidi paranes. 3. On korjatud kasutajate tagasisidet loodud tõlkesüsteemidele. On selgunud, et meie käsutuses olnud paralleelkorpuste peal treenitud süsteemid ei saa hästi hakkama selle keelega, mida kasutajad soovivad. Palju on tundmatuid sõnu ja ka lauseehitus on erinev. Ehk teiste sõnadega - need süsteemid ei ole hästi porditavad. Kasutajate tagasiside ja meie süsteemi tõlkevigade analüüs näitas, et esmane ja kõige silmahakkavam probleem on see, et meie SMT süsteem ei suuda leida sõnale ühtegi tõlkevastet. Sellisel juhul ei aita ka keelemudel tulemust siluda – tõlkimata jääv sõna ajab keelemudeli segadusse. Probleemi põhjuseks on senikasutatud paralleelkorpuste sõnavara, mis on tavakeelest liiga erinev. Lahenduseks on loomulikule sõnavarale sarnasema sõnavara lisamine: uute korpuste ning inglise-eesti ja eesti-inglise sõnastike integreerimine SMT süsteemidesse. Katsed erinevate korpustega näitasid, et EL seadusandlikud tekstid (JRC-Acquis) on oma statistilise iseloomu poolest loomulikust keelest niivõrd erinevad, et üldjuhul neid ei saa kasutada realistliku katsebaasina oma SMT süsteemide arendamiseks. Ülaltoodut arvestades tuleb panustada masintõlke jaoks järgmiste vajalike keeleressursside loomisse ja integreerimisse. 1. Uued paralleelkorpused, mis kajastavad loomulikumat keelt. 2. Sõnastikud, s.h. nii üldkeelesõnastikud (nt EKI inglise-eesti masintõlkesõnastik, http://www.eki.ee/dict/ies/) kui ka erialasõnastikud. Sõnastikke käsitletakse kui fraasitabeli loomiseks vajalikke komponente; seejuures katsetatakse ka muutevormide genereerimise kasulikkust. Sõnastikke on vaja selleks, et tõlkesüsteemi sõnavara oleks paremini kaetud. Et kontrollida, kuivõrd lisatud sõnastike ja korpuste sõnavara kattub eesti keele omaga, võrreldakse lisatud ressursside sõnavara eesti koondkorpuse (http://www.cl.ut.ee/korpused/) sõnavaraga. Osa puuduolevast sõnavarast saab lisada SMT treenimismaterjali hulka (pool)automaatselt - produktiivselt moodustatavad tuletised ja liitsõnad. 3. Teksti segmenteerija, mis on kohandatud just masintõlke vajadusteks. Üks silmatorkav probleem on, et tõlkehüpoteesis pakutakse liigseid sõnu, nt "see on lõpp" - "this is end of". Selle põhjuseks on, et paralleelkorpuse põhjal tehtud fraasitabelisse pannakse ka sellised fraasid, mis on küll kasulikud fraaside omavaheliseks kombineerimiseks, nt (millegi) lõpp - "end of", kuid mis teatud juhtudel osutuvad sobimatuks. Üks võimalik lahendus oleks sisendteksti täpsem segmenteerimine - osalausete ja fraasipiiride tähistamine. Segmenteerija ülesandeks on nii sõnade tükeldamine kui mitmesõnaliste üksuste kokkuvõtmine (pesu_masin = washing machine) kui ka lausete tükeldamine osalauseteks ning nende liigitamine (nt. tingimuskõrvallause) ja osalausetest fraaside leidmine ning liigitamine (nt. öeldise tuvastamine). Segmenteerija tuleb alles välja töötada. Korpuste ja tarkvara litsentseerimisel järgitakse sama poliitikat mida projektides Masintõlge 1 ja 2: kõik loodavad ressursid on avalikult tasuta kasutatavad; piiranguid ette nähtud ei ole. Ressursside standardiseeritus on tagatud loomulikul moel: nad on kasutusel standardses SMT-s. Masintõlge 2 lõpparuande kohta käiva otsuse kommentaariks: Kui võrrelda Google-i masintõlkega, siis kakskeelsed sõnastikud on Google-il ilmselt kasutuses (kuivõrd need on avalikud ressursid); subtiitrite korpust ei pruugi Google-il arendamiseks olla (kuid kohe, kui ta avalikult välja pannakse, saab ka Google seda treenimiseks kasutada); segmenteeritud korpse saab Google samuti kohe ära kasutada, kui ta avalikult välja pannakse. Seega antud projekt edendab eesti-inglise masintõlget nii TÜ süsteemis kui ka Google-i jaoks. Teiselt poolt, Google sponsoreerib mitmeid üritusi, mille käigus luuakse uut masintõlketarkvara (nt Google Summer of Code). Nii et võiks öelda, et võistlust Google-i masintõlkega ei saa võita, küll aga saab võistlusest võita eesti keel.