"Riiklik programm: Eesti keeletehnoloogia" projekt EKT19
EKT19 "Eesti-prantsuse paralleelkorpus (1.01.2011−31.12.2012)", Antoine Chalvin, Eesti-Prantsuse Leksikograafiaühing .
EKT19
Eesti-prantsuse paralleelkorpus
1.01.2011
31.12.2012
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH360 Rakenduslingvistika, võõrkeelte õpetamine, sotsiolingvistika 6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Eesti-Prantsuse Leksikograafiaühing koordinaator01.01.2011−31.12.2012
PerioodSumma
01.01.2011−31.12.20116 500,00 EUR
01.01.2012−31.12.20125 500,00 EUR
12 000,00 EUR

Projekti eesmärgid: 1) viia lõpule eesti-prantsuse paralleelkorpus ja täiendada korpuse veebiliidest; 2) liita korpus masintõlkesüsteemiga; 3) uurida võimalusi korpuse kasutamiseks keeleõpperakendustes. KORPUSE KIRJELDUS Korpus on kavandatud 15 miljoni sõnalisena. Praeguse seisuga sisaldab korpus üle 2 miljoni sõna. Korpus on võimaluste piirides tasakaalustatud tõlkesuundade ja žanride tasandil (eesti/prantsuse ilukirjandus, eesti/prantsuse mitteilukirjandus, Euroopa Liidu dokumendid). Korpust täiendatakse valdavalt ilukirjandusega ja Euroopa Liidu dokumentidega. Korpus on joondatud poolautomaatselt, kasutades statistilise masintõlkega seotud algoritmidele toetuvat keelest sõltumatut joondajat Hunalign, mida on eesti keele peal testitud Tartu Ülikooli paralleelkorpuse joondamisel. Joondamiskvaliteedi parandamiseks kasutab Hunalign eesti keele muutevorme sisaldavat prantsuse-eesti elektroonilist abisõnastikku. Siiski ei ole automaatsel joondamisel võimalik vigu välistada ja need peab käsitsi parandama mõlema keele tundja. Eestikeelsed tekstid on morfoloogiliselt märgendatud ja ühestatud tarkvaraga Estmorf ja prantsusekeelsed tarkvaraga TreeTagger. Korpuse kasutamiseks on välja töötatud veebiliides, mis põhineb CWB otsingusüsteemil. Praegune otsingusüsteem võimaldab otsida lemmasid ja sõnavorme, k.a regulaaravaldistega, ja piirata põhiotsingut 10 sõna piires esineva sõna, lemma või sõnaliigiga. Päringut on võmalik teha kas prantsuse või eesti või mõlemas keeles. Vastuseks on joonestatud lõigud (enamasti laused), kus otsitud väljend esineb. Väljend on märgitud tekstist erineva värviga. Kui päring on esitatud kahes keeles, näidatakse vastuseks ainult lõike, kus mõlemas keeles otsitud väljendid koos esinevad. Päringut on võimalik teha allkorpuste kaupa ja iga vastuseks saadud lõigu juures on viide selle allikale. Projekti raames täiendatakse otsingusüsteemi järgmiste võimalustega: 1. Kollokatsioonide leidmine ühe keele piires Eesmärgiks on leida eesti- ja prantsuskeelsetest alakorpustest ükskeelsed kollokatsioonid, toetudes erinevate žanrite võrdlusele ja kasutades ka sõnaliikidest saadud informatsiooni. 2. Tõlkevastete leidmine Tõlkevastete automaatseks leidmisel saab aluseks võtta töö, mis on tehtud inglise-eesti paralleelkorpustest automaatselt sõnastike leidmise osas (Tsepelina, Veskis 2010). Vajadusel kohandatakse meetodeid keelekombinatsioonist või korpusest tulenevatele eripäradele. Senist kasutajaliidest täiendatakse, et tagada kasutajasõbralik juurdepääs leitud tõlkevastetele. Statistilisi meetodeid kasutava tarkvarasüsteemi Uplug abil leitavad tõlkevasted aitavad lisaks paralleelkorpuse päringusüsteemi kasutajasõbralikuks muutmisele täiustada ka eesti- ja prantsusekeelsete tekstide automaatset lausetasandil joondamist ning masintõlkerakendust. 3. Päringu tulemuste kontekstide laiendamine Eesmärk on võimaldada kasutajale määrata individuaalselt päringuvastuste konteksti (üks lause, kaks lauset jne). KORPUSE RAKENDUSED Veebiliidese kaudu saab korpust kasutada tõlkimisel, leksikograafias, tõlke- ja keeleuuringutes, keeleõppes. Praegu kasutatakse korpust „Suure eesti-prantsuse sõnaraamatu“ (http://www.estfra.ee/GDEF.po) koostamisel. Projekti raames liidetakse korpus Tartu Ülikooli matemaatika-informaatikateaduskonna keeletehnoloogia teadusgrupi projektide Masintõlge 1 ja 2 raames valminud masintõlkesüsteemiga. Selle käigus treenitakse masintõlkesüsteemi tõlke- ja keelemudelit, kasutades eesti-prantsuse paralleelkorpust, ning täiendatakse aadressil masintolge.ut.ee olevat veebiliidest eesti-prantsuse ja prantsuse-eesti tõlkesuunaga. Selline täiendus aitab Tartu Ülikooli keeletehnoloogidel edasi arendada ka eesti-inglise masintõlget, võimaldades muuhulgas võrrelda peamiselt seadustekstidel põhineva eesti-inglise tõlkesüsteemi väljundit eesti-prantsuse tõlkesüsteemi suures osas loomulikumat keelt esindavatel kirjandustekstidel põhineva väljundiga. Projekti raames uurime ka erinevaid võimalusi korpuse kasutamiseks eesti ja prantsuse keele õpetamiseks. Peamisteks oodatud väljunditeks on grammatika- ja sõnavaraharjutuste genereerimine. Lisaks uurime üldisemalt paralleelkorpuse süstemaatilise kasutamise võimalikkust keeleõppes ja praeguse kasutajaliidese adekvaatsust pedagooglistele eesmärkidele. Vajaduse korral kohandatakse kasutajaliidest keeleõppe erivajadustele. Samuti on korpust ja sellel põhinevaid rakendusi võimalik integreerida erinevate otstarvetega mitmekeelsetesse rakendustesse nagu näiteks tõlkija töökeskkonna tüüpi rakendused või keeleõppe keskkonnad. KASUTUSTINGIMUSED Projekti raames loodavad veebirakendused on avalikult tasuta ligipääsetavad. Korpust tervikuna ei saa avalikult ligipääsetavaks teha, sest see sisaldab autoriõigustega kaitstud materjali. Korpus on tasuta kasutatav teaduslikel eesmärkidel ja mitteärilistes rakendustes.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Antoine ChalvindoktorikraadEesti-Prantsuse Leksikograafiaühing ; Juhtivteadur (0.50);EST / ENG01.01.2011−31.12.2011

Põhitäitjad (3)

IsikKraadTöökoht ja ametCVOsalemise periood
Egle EensooEST / ENG01.01.2011−31.12.2012
Katrin TsepelinaTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2012−31.12.2012
Kaarel Veskismagistrikraad (teaduskraad)EST / ENG01.01.2011−31.12.2012

Projektiga seotud tööjõud (2)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Ètienne Leblois0,501.01.2011−31.12.2012
Ülo Treikelder0,5101.01.2012−31.12.2012