"Riiklik programm: Eesti keeletehnoloogia" projekt EKT13
EKT13 (EKT13) "Võru ja seto keelekorpus (1.01.2011−31.12.2014)", Sulev Iva, Võru Instituut.
EKT13
Võru ja seto keelekorpus
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Võru Instituutkoordinaator01.09.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201122 000,00 EUR
01.01.2012−31.12.201216 000,00 EUR
01.01.2013−31.12.201325 000,00 EUR
01.01.2014−31.12.201425 000,00 EUR
88 000,00 EUR

Projekti eesmärgiks on ette valmistada võru ja seto keelele keeletehnoloogilise toe loomist läbi võru ja seto keeleressursside koondamise ja süstematiseerimise ühtseks keelekorpuseks. Võru ja seto keele arendamist ja laialdasemat kasutamist on peetud tähtsaks nii kohalkul (maakondade ja omavalitsuste arengukavades) kui ka riiklikul tasandil (Võru Instituudi töö, kultuuriministeeriumi Vana Võrumaa ja Setomaa programm, Eesti keele strateegia ja keelseaduse sätted eesti keele piirkondlikest erikujudest). On üldiselt teada, et tänapäeva maailmas ei saa säilida ega jätkusuutlikult areneda keeled, millele pole loodud vähimatki keeletehnoloogilist tuge. See kehtib ka võru ja seto keele kohta, mis on 2009. aastal kantud UNESCO ohustatud keelte nimekirja. Setokeelne leelotraditsioon on samas kantud ka UNESCO maailma vaimse kultuuripärandi nimekirja. Nüüd, kui eesti keeletehnoloogias on saavutatud eesti kirjakeelele keeletehnoloogilise toe loomisel juba arvestatav tase, oleks igati loomulik ja tänuväärne rakendada loodud baasi ja kogemusi ka Eesti põliste kohakeelte revitaliseerimisel. Keeletehnoloogiline esmavajadus võru ja seto keele puhul oleks võru kirjakeelel ja kirjalikul seto keelel põhineva keelekorpuse ja sellest lähtuva võru-seto automaatkorrektuuri ja -poolitaja loomine. Teatud alus selleks tööks on loodud juba 1995. aastal ilmunud doktoritöös seto verbi grammatika ja sõnastikega (Toomsalu 1995), oma grammatikaosas suuresti sellest lähtunud võru-eesti sõnaraamatu (Iva 2002) ja praegu koostamise lõppjärgus oleva eesti-võru sõnaraamatuga, mis sisaldavad nii võru, seto kui ka laiemalt lõunaeestilisel keelekasutusel põhinevat võru kirjakeele sõnavara ja grammatikat. Keeletehnoloogiliseks uurimis- ja arendustööks vajalik võru kirjakeele muutemorfoloogia põhjalikum käsitlus leidub doktoritöös Võru kirjakeele sõnamuutmissüsteem (Iva 2007), kuid väga kasulik eeltöö on selleks tehtud ka EKI-s morfoloogiliselt märgendatud korpuseks arendatud Salme Nigoli Hargla konsonantismi käsitluse näol. Hulgaliselt morfoloogiliselt märgendatud võru ja setu tekste leidub TÜ murdekorpuses ja suulise kõne korpuses. Esimese etapina ülalnimetatud võru ja seto keeleressursside koondamine, süstematiseerimine ja täiendamine ühtseks keelekorpuseks ja vajalike kasutajaliideste loomine ning edaspidi loodud korpuse täiendamine ja laiendamine ning selle põhjal keeletehnoloogiliste rakenduste (automaatkorrektuur, poolitaja jm) loomine ongi käesoleva projekti tööülesandeiks. Lisaks nimetatud ressurssidele on plaanis korpusele lisada võru ja seto ajakirjandustekstide osa (ajalehtede Uma leht ja Setomaa elektrooniliste arhiivide sisu põhjal) ja Võru Instituudis säilitatavate võru kirjakeele allikate osa (õpikute, ilukirjanusteoste jm elektrooniliste tekstide põhjal). Koostöös TÜ murdekorpuse ja suulise kõne korpuse arendajatega saab korpusele liita seal olemasoleva võru ja setu materjali nii tekstina kui helifailidena. Keeleressursside kogumise ja litereerimise osas on plaanitud koostöö TÜ Lõuna-Eesti keele- ja kultuuriuuringute keskusega. Korpusega saaks liita ka (Triin Iva doktoritöö raames tehtud) teadaolevalt ainsad võru väikelastekeele salvestised. Nii kirjalikke kui suulisi keeleressursse tuleb lisaks olemasoleva materjali koondamisele ja süstematiseerimisele pidevalt täiendada uue keelematerjali kogumise, litereerimise ja märgendamisega. Korpuse suulise kõne pool loob aluse selleks, et tulevikus saaks võru ja seto keelega arvestada ka eesti kõnetuvastuse ja -sünteesi arendamisel.
Projekti eesmärgiks on olnud ette valmistada võru ja seto keelele keeletehnoloogilise toe loomist. Keeletehnoloogiliseks esmavajaduseks võru ja seto keele puhul hindasime projekti alguses võru kirjakeelel ja kirjalikul seto keelel põhineva keelekorpuse loomise, millest võiks edaspidi tuge olla esimeste võru ja seto keeletehnoloogiliste rakenduste loomiseks. Töö esimese etapina plaanisime võru ja seto keeleressursside koondamist ja süstematiseerimist keelekorpuseks ja vajalike kasutajaliideste loomist. Sealt edasi oli plaanis loodud korpuse täiendamine ja laiendamine ning selle põhjal keeletehnoloogiliste (katse)rakenduste loomine. Korpuse raames plaanisime luua kaks suuremat allkorpust: (1) võru ja seto kirjakeele ja (2) suulise keele korpuse. Võru ja seto kirjakeele korpuse osas oli plaanitud luua võru ja seto ajakirjandustekstide allkorpus (ajalehtede Uma leht ja Setomaa elektrooniliste arhiivide sisu põhjal) ja ilukirjanduskorpus Võru Instituudis säilitatavate võru kirjakeele allikate (õpikute, ilukirjanusteoste jm elektrooniliste tekstide põhjal). Suulise keele osas on olnud plaanis koostöös TÜ murdekorpuse ja suulise kõne korpuse arendajatega liita korpusele olemasolevaid võru ja setu materjale nii tekstina kui helifailidena. Muuhulgas oli kavas liita korpusega teadaolevalt ainsad tol ajal olemas olevad võru väikelastekeele salvestised. Nii kirjalikke kui suulisi keeleressursse plaanisime lisaks olemasoleva materjali koondamisele ja süstematiseerimisele pidevalt täiendada uue keelematerjali kogumise, litereerimise ja märgendamisega. Projekti algusaastatel olime keskendunud nii kirjaliku kui suulise keelematerjali kogumisele, süstematiseerimisele ja selle põhjal korpuse loomisele. Projejektiperioodi teisel poolel keskenduti põhiliselt erinevate kirjakorpuse allkorpuste ja nende kasutajaliideste loomisele ja arendamisele, mille kõrvalt prooviti luua korpuse baasil ka võru ja seto esimesi keeletehnoloogilisi katserakendusi. Võru ja seto keelekorpuse kogu projektiperioodi lõpptulemused on kokkuvõtlikult järgmised: Loodud on võru ja seto kirjakeele korpus, mis jaguneb ilukirjanduse ja ajakirjanduse allkorpusteks. Projekti algaastatel on rohkem tegeldud ajakirjanduse korpuse kogumise ja arendamisega, projekti viimasel aastal aga rohkem ilukirjanduse korpusega, mis hõlmab ka õppe- ja tarbekirjanduse allkorpusi. Plaanis on olnud luua veel üks ajakirjanduse allkorpus - setokeelse ajakirja Peko Helü korpus, mis on jäänud siiski tegemata, seda põhiliselt seetõttu, et projekti täitjad, kes oleksid sellega tegelema pidanud, olid projekti lõpuosas keskendunud teiste korpuste loomisele. Seega on projektiperioodi lõpuks ajakirjanduskorpuse mahuks: 1 269 000 sõna, sellest: Uma Lehe korpus – ca 762 000 sõna, Ajalehe Setomaa korpus – seto keeles 279 000, eesti keeles 228 000 sõna. Võru ja seto kirjakeele ajakirjanduse allkorpuste vaba juurdepääsuga otsingumootorid asuvad: - Uma Leht: http://www.murre.ut.ee/otsing/voru.php - Setomaa: http://synaq.org/seto Ilukirjanduse korpuse kogumahuks on ca 350 000 sõna, korpus on viimase aasta jooksul muudetud tekstiarhiivist avalikuks keelekorpuseks koos vajaliku kasutajaliidesega, mis asub aadressil http://synaq.org/ilo. Võru ja seto kirjakeele korpuse teise tähtsama suunana on olnud kavas luua eesti-võru paralleelkorpus. Kuigi paralleelselt eesti ja võru keeles kättesaadavaid tekste on suuremate keeltega (nt eesti või soome keelega) võrreldes väga vähe, on (näiteks masintõlkerakendustele mõeldes) seda enam tähtis olemasolevad tekstid paralleelkorpusse koondada. Paralleelkorpuse koostamise algaasta (2013) jooksul suutsime koguda tekstiarhiivina ca 20 000 sõna. 2014. aasta lõpuks õnnestus korpuse maht enam kui kahekordistada, nii et paralleelkorpuse mahuks on nüüd 56 722 eestikeelset ja 68 188 võrukeelset sõna. Korpusele on loodud kasutajaliides, mis on vabalt kättesaadav aadressil http://voro.aader.org/wi.py ja http://wi.werro.ee/proov/wi.p. Kirjakeele korpuse töö kõrvalharuna plaanisime projekti lõpuastatel ka esialgse eesti-võro masintõlke katserakenduse loomist. Vähegi kvaliteetsema algtulemuseni sellega küll jõutud pole, kuid esialgne, peamiselt "Võru-eesti sõnaraamatust" genereeritud sõnastikel ja väga piiratud grammatikatoel põhinev katserakendus on siiski loodud, see asub aadressitel http://voro.aader.org/tolgi.py ja http://wi.werro.ee/proov/tolgi.py. Võru ja seto keelekorpuse suulise keele allkorpuse tulemused võib projektiperioodi lõpuks kokkuvõtlikult esitada järgmiselt: heli- ja videosalvestatud ca 50 tundi uusi argivestlusi; ca 27 tundi võru väikelastekeele videosalvestisi, ca 8 tundi TÜ murdekorpuse setokeelseid intervjuusid; mõned võrukeelse suveülikooli ettekanded; kõigist salvestistest litereeritud ca 121 000 sõna. Suulise kõne korpusest otsingute tegemiseks loodud kasutajaliides, mis on mõeldud ainult teaduslikel eesmärkidel kasutamiseks (juurdepääs parooliga) asub aadressil: http://keel.ut.ee/voru/ Projekti suulise keele osa viimastel aastatel plaanisime koostöös TÜ foneetikalabori ja EKI kõnesünteesi töörühmaga peetud konsultatsioonide põhjalt uue suunana teha ülesvõtted võrukeelse kõnesünteesi esimeste prototüüpide loomiseks. Selle suunaga alustamiseks on tehtud esimesed ülesvõtted, milleks on võru-eesti veebisõnaraamatu täies mahus - 15 000 sõnaartiklit - kõrgekvaliteetne helindus, mis sisaldab nii võrukeelseid sõnu kui näitelauseid. Töö on leitav ja helilinkidena kuulatav aadressilt http://synaq.org. Võru ja seto keelekorpusel on lisaks EKT programmi kodulehele oma koduleht ka Võru Instituudi veebilehe juures: http://wi.ee/index.php/keelekorpus-vro (võru keeles) http://wi.ee/index.php/keelekorpus-et (eesti keeles) Korpust tutvustavate konverentsiettekannete põhjal ja korpuse kogu nelja-aastase esmase tööperioodi tulemuste kokkuvõttena ilmus 2014. aasta lõpul Sulev Iva artikkel "Võru ja seto keelekorpus" Võru Instituudi toimetiste sarja 28. numbris, lk 75-82, vt manustatud pdf-faili. Võru ja seto keeleressursside maht, kättesaadavus, korraldatus ning keelte valmisolek edasisteks keeletehnoloogilisteks väljakutseteks on tänu neljale aastale Võru ja seto korpusetööle kindlasti nüüd palju suurem ja parem. Keelekorpusetööga alustatut jätkame uue projektina "Võru ja seto integreeritud keeleressursid", mis on seotud ja arendab koostööd mitme teise keeletehnoloogilise projektiga. Projekti raames soetatud riistvara - korpuse suulise osa salvestamiseks ja litereerimiseks kasutatud diktofonid ja kõrvaklapid - on täiesti töökorras ja neid kasutatakse Võru Instituudis uurimis- ja õppetöö eesmärgil edasi.