"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-65
EKKTT09-65 "Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil (1.01.2009−31.12.2010)", Maarika Traat, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-65
Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2009−31.12.2009188 200,00 EEK (12 028,17 EUR)
01.01.2010−31.12.2010160 000,00 EEK (10 225,86 EUR)
22 254,03 EUR

Käeoleva projekti raames on plaanis luua veebiliidesega tööriist, mis võimaldab kasutajal sisestada sõna või fraasi ning päringule vastuseks saada kas tõlked valitud võõrkeeles või parafraasid lähtekeeles. Sarnane tööriist on olemas inglise keele ja mõnede teiste enamräägitavate keelte jaoks. Nimetatud tööriist on kasutatav veebiaadressil http://linearb.co.uk. Meie tahaksime luua sama funktsionaalsusega tööriista, mis hõlmaks ka eesti keelt. Sellist tööriista saab kasutada abivahendina tõlkimisel või ühekeelse teksti kirjutamisel. Viimasel juhul on tööriist abiks parafraseerimisel, leidmaks mingi mõtte väljendamiseks just seda kõige sobivamat sõna või fraasi. Kirjutades võib kaunis sagedasti esineda olukord, kus mingit mõtet on raske kirja panna, kuna selle väljendamiseks vajalik sõna või fraas ei tule meelde. Plaanitud tööriist aitaks sellisel puhul, kuna sarnase tähendusega sõna või fraasi sisestamisel on mõni väljastatud parafraasidest suure tõenäosusega just see vajalik puuduv sõna või fraas. Ka tõlkimisel pakub tööriist laiema diapasooniga tõlgete valikut kui tavaline sõnaraamat, kuna väljundiks on sisendsõna või fraasi tõlked paljudes erinevates kontekstides. Väljastatud tõlgete ja parafraasidega koos väljastatakse ka väike tekstilõik, mis näitab, millises kontekstis vastav tõlge või parafraas esines. Tööriista abil leitud parafraase on võimalik kasutada eesti keele tesauruse/wordneti täiendamisel, kuid tööriistast on abi ka muud sorti leksikograafilises töös. Kirjeldatud tööriista töö põhineb joondatud paralleelkorpuste kasutamisel. Masintõlkes on selliste korpuste kasutamine väga levinud, nende kasutamine parafraaside leidmiseks on aga kaunis värske idee. Sellist lähenemist parafraaside leidmisel on kirjeldatud järgmistes artiklites: Colin Bannard ja Chris Callison-Burch (2005), Chris Callison-Burch (2008). Eriti detailselt käsitles Chris Callison-Burch seda meetodit oma doktoritöös (2007). Chris Callison-Burch on isiklikult nõus meid selle projekti juures nõustama. Antud projekt erineb masintõlkeprojektist, kuna sisendfraasidele vastusena väljastatavaid üksikuid tõlkefraase ei kombineerita kokku erinevatest allikatest, vaid alati on tegu inimtõlkide poolt mingis projektis kasutatud tõlkevastetega. Korpustena planeerime alustuseks kasutada JRC-Acquis’d (http://langtech.jrc.it/JRC-Acquis.html), Acquis Communautaire tõlkemälu DGT-TMi (http://langtech.jrc.it/DGT-TM.html) ja OPUSt (http://urd.let.rug.nl/tiedeman/OPUS/), aga samas püüame ka ise materjali juurde muretseda. Juba praegu käivad läbirääkimised mitme tõlkebüroo (sh Tilde ja Luisa tõlkebürood) ja tõlkeid tegeva riigiasutusega (sh Justiitsministeeriumi Õigusloome ja õiguskeele talitus, Eesti Pank) nende tõlkemälude meie andmebaasi kaasamise võimaluste üle. Eesti Pangalt saime juba väga positiivset tagasisidet. Meie tõlkemälude kasutamise soov on edastatud kõigile Eesti Tõlkebüroode Liidu liikmetele. Äsja lõppenud EKKTT projektis Masintõlge I tehti suur töö ära olemasolevate eesti keelt sisaldavate paralleelkorpuste kvaliteedi parandamise vallas - oma projekti raames plaanime kindlasti ära kasutada nimetatud projekti tulemusi. Korpuste täiendamisest, mis meil plaanis on, on aga huvitatud ka selle aasta EKKTT taotlusvoorus taotletava projekti Masintõlge II täitjad, kellega kavatseme tihedat koostööd teha. ----------------------------------------------------------- Viited: Colin Bannard and Chris Callison-Burch, 2005. Paraphrasing with Bilingual Parallel Corpora. In Proceedings of ACL-2005. http://cs.jhu.edu/~ccb/publications/paraphrasing-with-bilingual-parallel-corpora.pdf Chris Callison-Burch, 2007. Paraphrasing and Translation. PhD Thesis, University of Edinburgh. http://www.cs.jhu.edu/~ccb/publications/callison-burch-thesis.pdf Chris Callison-Burch, 2008. Syntactic Constraints on Paraphrases Extracted from Parallel Corpora. In Proceedings of EMNLP 2008. http://cs.jhu.edu/~ccb/publications/syntactic-constraints-on-paraphrases.pdf