"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT08-26
EKKTT08-26 "VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamineDevelopment of language software and language technology resources fot the Estonian interlanguage corpus (1.01.2008−31.12.2010)", Pille Eslon, Tallinna Ülikool.
EKKTT08-26
VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamineDevelopment of language software and language technology resources fot the Estonian interlanguage corpus
1.01.2008
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.1. FilosoofiaH120 Süstemaatiline filosoofia, eetika, esteetika, metafüüsika, epistemoloogia, ideolooogia 6.3. Muud humanitaarteadused (filosoofia - s.h. teaduse ja tehnika filosoofia, kunstiteadused, kunstiajalugu, kunstikriitika, maalikunst, skulptuur, muusikateadus, teatriteadus, religioon, teoloogia jne.)80,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)20,0
AsutusRollPeriood
Tallinna Ülikoolkoordinaator01.01.2008−31.12.2010
PerioodSumma
01.01.2008−31.12.2008350 000,00 EEK (22 369,08 EUR)
01.01.2009−31.12.2009494 025,00 EEK (31 573,95 EUR)
01.01.2010−31.12.2010400 000,00 EEK (25 564,66 EUR)
79 507,69 EUR

VAKO kuulub oma eesmärkide ja püstitatud ülesannete poolest „Eesti keele arendamise strateegia (2004 – 2010)” keeletehnoloogia võtmevaldkonna alla. Eesti vahekeele korpus (EVKK) on välja kasvanud sihtfinantseeritavast teemast nr 0132493s03 „Eesti keelekeskkonna arengu analüüs, modelleerimine ja juhtimine (2003 – 2007)” ning seda toetavatest riiklikest programmidest „Eesti keel ja rahvuslik mälu (2004 – 2008)” – grant R05/01 „Koodivahetuse, vahe- ja lastekeele korpuste töötlemine ja haldamine (2005 – 2008)” ning ETFi grantist nr 6151 „Koodivahetuse, eesti vahekeele ning lastekeele andmekorpuste koostamine ja üldkirjeldus (2005 – 2008)”. Eesti vahekeele korpus (http://evkk.tlu.ee) on ainuke eesti keele kui teise keele või võõrkeele kasutajate autentsete kirjalike tekstide kogu, mis kuulub elektrooniliste keeleressursside alla. Ligi 700 000 sõnet sisaldav korpus on loodud Tallinna Ülikoolis arendatava vabavaralise veebitarkvara baasil. Korpuse lähtekood on jagatav BSD litsentsi alusel, mis ei näe ette mingeid piiranguid tarkvara kasutuses. Korpuse veebipõhine kasutajaliides võimaldab seada eri tasandi kasutajatele erinevaid juurdepääsupiiranguid , kuid suures osas on korpuse funktsionaalsused vabalt kasutatavad. Korpusel on oma konkordantsileidja, sõna- ning vormisageduse statistika. Õppijakeele vigu, mis on käsitsi märgendatud, saab näha vealiikide kaupa (leksikaalsed, leksikaalgrammatilised, morfonoloogilised, morfoloogilised, morfosüntaktilised, süntaktilised, kommunikatiivsed), nii kitsamas kontekstis kui terviktekstis. Iga vealiigi all on rohkem või vähem rikkalik alamliigituste hierarhia. Veapuu liigituse aluseks on üle 300 tunnuse. Kasutajaliidese alusel saab metainfot teksti koostaja (sugu, emakeel, kodune keel, vanus jne) ja teksti kohta (teksti maht sõnedes, tekstiliik, vigade hulk tekstis vealiigiti jne). Projekti VAKO esmane eesmärk on olemasoleva keeletarkvara alusel ning seda arendades luua EVKK automaatseks töötlemiseks sobivad tarkvararakendused, mis võimaldavad korpuse tekstide käsitsimärgendamiselt üle minna poolautomaatsele. Selleks on vaja luua vealeidja prototüüp, mis sisaldaks ühelt poolt morfoanalüsaatorit, Tartu Ülikoolis loodud eesti keele süntaksianalüsaatorit koos kitsenduste grammatikaga, ja teisalt lähtuks vealiigi määramisel EVKK lingvistilisest veataksonoomiast. Projekti teiseks eesmärgiks on olemasoleva keeletehnoloogilise ressursi suurendamine EVKKs 5 miljoni sõneni ning funktsionaalsuste laiendamine (õppijakeele elektroonilise sõnastiku loomine ja sagedussõnastiku koostamine). VAKO projekti eesmärkide realiseerimine oleks samm vahekeele kui eesti kirjakeele variandi võrdsete uurimisvõimaluste suunas võrreldes olemasolevate inglise ja mitte-inglise vahekeele korpustega. Tänaseks on nende korpuste baasil hakatud looma interaktiivseid õpikeskkondi, mis võimaldavad üle minna põhimõtteliselt uut laadi keeleõppe korraldusele – korpuspõhisele keeleõppele. Näiteks võiks tuua prantsuse vahekeele korpuse FRIDA ja sellega seotud ametialase keele õppemoodul FreeText. Eesti keele kui teise / võõrkeele õpetamiseks pole vahekeele korpuspõhist keskkonda veel loodud. EVKK keeletarkvara arendamise oodatav tulem (vastavalt EKKTT programmi alameesmärkidele): 2.1.5 Grammatikakorrektor: poolautomaatse vealeidja prototüübi loomine, mis kasutaks ühelt poolt olemasolevat eesti keele morfo- ja süntaksianalüsaatorit, vahekeele leksikoni ning teisalt asendaks korpuse praeguse käsitsi märgendamise vahendi EVKK lingvistilisele veataksonoomiale tugineva vabavaralise ja veebipõhise veamärgendussüsteemiga; sellest tööst on kasu nii eesti keele süntaksianalüsaatori arendamisele kui grammatikakorrektori loomisele. 2.1.4 Keeleõppevahendid: EVKK korpuse ja selle juurde loodava poolautomaatse vealeidja alusel veebipõhise õpikeskkonna IVA2 keeleõppe mooduli arendamine. Moodul võimaldab koostada interaktiivseid keeleõppe harjutusi (6 erinevat tüüpi), mille lahendusi hindab süsteem automaatselt. 2.1.9. Leksikograafi töökeskkond: luuakse EVKK lisamoodul, mis võimaldab õppijakeele elektroonilise sõnastiku loomist. EVKK sõnastiku-moodulit testitakse 1000 sõnest koosneva testsõnastiku baasil. EVKK keeletehnoloogilise ressursi laiendamine (vastavalt EKKTT alameesmärkidele): 2.2.1. Eesti kirjakeele koondkorpus (kirjaliku keele teised allkeeled): olemasoleva 700 000 sõnet sisaldava õppijakeele tekstikogu laiendamine 5 miljoni sõneni, et koostada õppijakeele sagedussõnastik, mis sisaldab teavet sõna-, vormisageduse ja tuletiste kohta. 2.2.3. Süntaktiliselt analüüsitud korpus: projekti VAKO esimeses faasis loodava poolautomaatse vealeidja abil analüüsitakse süntaktiliselt vähemalt 100 000 sõnest koosnevat tasakaalustatud EVKK korpuse osa. 2.2.6. Korpuste kasutajaliidesed: täiustatakse EVKK veebipõhist kasutajaliidest, valideerides ja parandades selle kasutatavust. EVKK tarkvarale programmeeritakse juurde veebiteenusena (SOAP/REST Web Service) töötav liides, mis võimaldab teistest veebirakendustest EVKKsse päringuid teha.