See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)" projekt EKKTT06-9
EKKTT06-9 "Masintõlge I (1.01.2006−31.12.2008)", Heiki-Jaan Kaalep, Tartu Ülikool, Filosoofiateaduskond.
EKKTT06-9
Masintõlge I
1.01.2006
31.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2006−31.12.2008
PerioodSumma
01.01.2006−31.12.2006340 000,00 EEK (21 729,96 EUR)
01.01.2007−31.12.2007340 000,00 EEK (21 729,96 EUR)
01.01.2008−31.12.2008600 000,00 EEK (38 346,99 EUR)
81 806,91 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Projekt jätkab muutusteta Riikliku Sihtprogrammi „Eesti keel ja rahvuslik mälu (2004-2008)” raames aastal 2004 alanud projekti „Masintõlge I”. Projekti raames on loodud lausete kaupa paralleelistatud inglise-eesti korpus (maht keeliti 7,8 ja 5,0 miljonit sõna) ning tehtud esimesed katsed tõlkida nii eesti keelest inglise keelde kui ka vastupidi, kasutades selleks vabavaralist statistilise masintõlke programmi Pharaoh (http://www.isi.edu/licensed-sw/pharaoh/). Tähtsus Masintõlge on kiiresti arenev valdkond; kiiresti arenevad nii kasutatavad meetodid kui ka vastav tarkvara (s.h. vabavara), mis on orienteeritud järjest suuremate ja lingvistiliselt rohkem märgendatud tekstikorpuste kasutamisele. Praegusel etapil ongi põhirõhk korpustel kui edasise töö alusel, mis pealegi ei vanane nii kiiresti kui momendil kasutatavad meetodid ja tarkvara. Erinevatest masintõlke meetoditest on uuele keelele hõlpsamini rakendatavad statistilised masintõlkesüsteemid. Statistilised süsteemid on, vähemalt teoreetiliselt, keelest sõltumatud. Seega läheb nende süsteemide uuele keelepaarile rakendamiseks vaja vaid piisavalt suurt (aga piisavalt suur on vähemalt paarkümmend miljonit sõna suur) paralleelkorpust, millest süsteem leiab ise tõlkevastete tõenäosused ja koostab sihtkeele keelemudeli. Siiski on MT-alastes uuringutes viimasel ajal jõutud tõdemuseni, et ainult statistilistest meetoditest ei piisa hea tõlke saamiseks, eriti üksteisest tüpoloogiliselt erinevate keelte puhul. Nii ongi aktuaalseks muutunud statistiliste ja lingvistiliste meetodite kombineerimine. Eesmärgid 1. Parandada olemasoleva inglise-eesti korpuse paralleelistamise kvaliteeti, suurendada tema mahtu ja mitmekesistada tekstide valikut (Riikliku programmi alaeesmärk 3.2.1.2). 2. Märgendada korpus lingvistiliselt nii põhjalikult kui see on automaatselt võimalik (morfoloogiliselt, fraaside ja väljendite osas, süntaktiliselt, semantiliselt). Seda tuleb teha nii eesti kui inglise keele osas. Seejuures eeldame, et tarkvara, mida korpuste märgendamiseks kasutatakse, töötatakse välja muude projektide raames; antud projektis ainult kohandatakse teda. 3. Teha seeria masintõlke eksperimente nii olemasolevate vabavaraliste kui TÜs välja töötatud tarkvarapakettidega, kasutades momendil olemas olevaid korpusi. Eksperimentide tulemused peavad olema seejuures omavahel võrreldavad. Sellist metoodikat kasutades otsime eesti keele seisukohast perspektiivsemaid algoritme ja lahendame probleeme, mis takistavad just eesti keelega seotud masintõlget.