See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-6
EKKTT06-6 (EKKTT06-6) "Kõnekeele ressursid ja kõnetehnoloogia andmebaasid (1.01.2006−31.12.2010)", Einar Meister, Tallinna Tehnikaülikool, TTÜ Küberneetika Instituut.
EKKTT06-6
Kõnekeele ressursid ja kõnetehnoloogia andmebaasid
1.01.2006
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT121 Signaalitöötlus 2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)80,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus20,0
PerioodSumma
01.01.2006−31.12.2006660 000,00 EEK (42 181,69 EUR)
01.01.2007−31.12.2007400 000,00 EEK (25 564,66 EUR)
01.01.2008−31.12.2008750 000,00 EEK (47 933,74 EUR)
01.01.2009−31.12.2009592 830,00 EEK (37 888,74 EUR)
01.01.2010−31.12.2010500 000,00 EEK (31 955,82 EUR)
185 524,65 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Projekti eesmärgiks on eesti keele foneetilisteks ja kõnetehnoloogilisteks uuringuteks ning arendustöödeks vajalike kõnekorpuste salvestamine, digitaliseerimine, märgendamine ja arhiveerimine, samuti ühtse tehnoloogilise keskkonna loomine erinevate andmebaaside haldamiseks ja efektiivseks kasutamiseks. Projekti olulisemad ülesanded on: 1. kõnetuvastuse uuringuteks, tuvastussüsteemide treenimiseks ja testimiseks vajalike erinevate kõnekorpuste (spontaanne kõne, dialoogid fikseeritud valdkondades, uudiste lugemine, jms) salvestamine; 2. aktsendikorpuse loomine eri emakeelega isikute eesti keele hääldusnäidetest. Salvestatakse kõnenäiteid vene, saksa, prantsuse, rootsi, soome, Ameerika ja Suurbritannia inglise ja muu emakeelega eesti keele kõnelejatelt; 3. tehnoloogilise keskkonna loomine erinevate kõneandmebaaside haldamiseks ja efektiivseks kasutamiseks uurimistöös. Luuakse tehnoloogilised vahendid eri formaatides salvestatud kõnekorpuste ühildamiseks ja liides päringute esitamiseks; 4. kõnesignaalide segmenteerimise ja märgendamise ühtsete printsiipide ja reeglite väljatöötamine; vastava juhendi koostamine. Projekti tähtsus: Keeleressursid moodustavad olulise osa uurimistööks vajalikust infrastruktuurist. Mitmekesise ja süstematiseeritud kõnematerjali olemasolu võimaldab uurida erinevaid suulise kõne aspekte; kõnelejate suur hulk on oluline statistiliselt usaldusväärsete analüüsitulemuste saamiseks. Kõnelejast sõltumatu tuvastussüsteemi loomiseks on treenimisel vajalik kasutada paljude inimeste hääldusnäiteid, sealhulgas ka aktsendiga kõnenäiteid. Aktsendi korpuse loomine on vajalik ka aktsendinähtude akustilise analüüsi ja modelleerimise tarvis. Kõnetehnoloogiline arendustöö on piisavate kõneressursside olemasoluta mõeldamatu. Mitmed praegu uurimistöös kasutatavad kõnekorpused on salvestatud eri formaatides ja seetõttu on nende paralleelne kasutamine tülikas. Olemasolevate ja loodavate kõnekorpuste haldamiseks ja paremaks kasutamiseks on vajalik ühtse tehnoloogilise platvormi ja kasutajaliidese väljaarendamine. Erinevad uurimisülesanded vajavad kõnesignaalide segmenteerimist ja märgendamist mitmetel eri tasanditel. Seni puuduvad eestikeelse kõne ühtsed segmenteerimis- ja märgendamisprintsiibid, mistõttu on ühe uurimisrühma poolt kogutud ja valdkonna-spetsiifiliselt märgendatud kõnekorpused teistele uurijatele sageli kasutud. Erinevate kõnekorpuste efektiivsemaks kasutamiseks on vajalik koostada eri uurimisrühmade vajadusi arvestavad ühtsed segmenteerimis- ja märgendamisprintsiibid ning formaliseerida vastavad reeglid. Projekt on otseseks jätkuks RP Eesti keel ja rahvuslik mälu raames 2004-2005 finantseeritud kõneressursside kogumise projektile.