"Riiklik programm: Eesti keeletehnoloogia" projekt EKT87
EKT87 "Kõnetuvastus 2 (1.01.2015−31.12.2017)", Tanel Alumäe, Tallinna Tehnikaülikool, TTÜ Küberneetika Instituut, Tallinna Tehnikaülikool, Infotehnoloogia teaduskond, Tarkvarateaduse instituut.
EKT87
Kõnetuvastus 2
1.01.2015
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2015−31.12.201564 000,00 EUR
01.01.2016−31.12.201633 765,00 EUR
97 765,00 EUR

Projekti eesmärgiks on eestikeelse kõnetuvastuse kvaliteedi parandamine, nii reaalajalise (online) kui ka reaalajatu (offline) kõnetuvastustehnoloogia tasuta ja koos lähtekoodiga kättesaadavakstegemine tingimustel, mis lubab seda integreerida ka kommertsrakendustesse, ning olemasolevate lõpptarbijale suunatud kõnetuvastusrakenduste edasiarendamine. Projekti "Kõnetuvastus" (2011-2014) käigus õnnestus kõnetuvastuse vigade arvu mõõdetud valdkondades vähendada keskmiselt 40% võrra. Järgmise kolme aasta eesmärgiks on vigade arvu veel 25% võrra vähendada. Spontaanse kõne puhul, kus praegu on vigade osakaal u 40%, on eemärgiks vigade arvu vähendada suhteliselt 40% võrra. Eesmärgid on valdkonniti järgmised (reaalajalise piiranguta kõnetuvastuse puhul): * Raadio vestlussaated: 16,9% - > 12,7% * Konverentsikõned: 23,5% - > 17,6% * Aktuaalne Kaamera: 19,6% - > 14,7% * Spontaanne kõne foneetilisest korpusest: 39,9% - > 23,9% Seatud eesmärgid pole sugugi riskivabad: kõnetuvastuses loetakse väga suureks paranemiseks juba vigade arvu suhtelist vähenemist 10% võrra. Toodud eesmärgid tuginevad eeldusele, et jätkub sobivate uute treeningandmete tootmine projektide "Kõne- ja multimodaalsed korpused" ja "Eesti keele spontaanse kõne foneetilise korpuse arendused" jätkuprojektides, ning jätkub viimastele aastatele sarnane progress maailma kõnetuvastuses, mis võimaldab meil maksimaalselt ära kasutada teiste teadlaste tehtud tööd. Üheks uueks eemärgiks on integreerida offline kõnetuvastustehnoloogiaga kõneldava keele identifitseerimise moodul. Moodul võimaldaks tuvastada kõnesalvestuses esinevate kõnesegmentides kõneldava keele ning rakendada eestikeelset kõnetuvastus ainult eestikeelsetele segmentidele. Vajadus selle tehnoloogia järele on ära toodud Eesti Keele Arengukavas 2011-2017 ja EKT programmis. Sellisest moodulist on huvitatud ka meediamonitooringufirmad, kes praegu meie tuvastustehnoloogiat kasutavad. Rakenduste osas on kõige tähtsamaks eesmärgiks see, et tehtud töö üldise kõnetuvastuskvaliteedi paranemise osas kajastuks ka rakendustes. See pole sugugi triviaalne: uurimisotstarbel implementeeritud meetodid ja algoritmid pole tihti tarvara-kvaliteediliselt ja muude nõuete osas (kiirus, mälukasutus, sõltumine muust tarkvarast, töökindlus) sellisel tasemel, mis võimaldaks neid lihtsalt pakendada ja n-ö tootmises kasutada. Nutirakenduste osas on eemärgiks ka olemasolevaid rakendusi vajadusel kaasajastada, näit lisada tugi nutikelladele ja -prillidele. Projekti pikaajaline eesmärk on eesti keele kõnetehnoloogilise toe kindlustamine, mis aitaks tagada eesti keele püsimajäämist digitaalses maailmas. Eesmärgid vastavad EKT programmi tarkvaraprototüüpe loovate uurimis- ja arendusprojektide alameesmärgile "Kõnetuvastus".
Projekti käigus õnnestus eestikeelse kõne tuvastusel tehtavaid vigu vähendada ligikaudu poole võrra. Allolev loetelu näitab tuvastuse sõnavigade arvu mitme testvalimi lõikes projekti alguses ning lõpus: * Raadio vestlussaated: 17% ⇒ 9.9% * Aktuaalne kaamera: 20% ⇒ 9,6% * Konverentsikõned: 24% ⇒ 13,9% * Spontaanne kõne: 40% ⇒ 17,6% Tüüpiliste kasutajate üleslaetud failide tuvastusel jõudsime projekti lõpus 27,2% sõnavigade määrani. Kõnetuvastus toimib nüüd kaasaegsel protsessoril u 0,5-kordse reaalajalise kiirusega. See tähendab, et ühetunnine salvestus transkribeeritakse umbes 30 minutiga. Töötati välja moodul tuvastatud teksti automaatseks kirjavahemärgistamiseks, mis parandab oluliselt tuvastatud teksti loetavust. Arendasime välja uudse meetodi kõnelejatuvastusmudelite kaudse juhendamisega treenimiseks. Meetodi abil saab kõnelejatuvastuse mudeleid treenida sellise materjali põhjal, kus kõnelejad on annoteeritud salvestuse tasemel (näit. erinevad kõnelejad on esitatud salvestusega kaasas olevates metaandmetes). Treenisime sel viisil kõnelejatuvastuse mudelid ERRi Päevakaja arhiivi põhjal, mille tulemusena identifitseerib meie kõnelejatuvastuse süsteem uutes Päevakajades keskmiselt 67% ajast korrektselt kõneleja nime, eksimise määr on sealjuures 7%. Mobiilirakendusel Kõnele on nüüd klaviatuurirakenduse funktsionaalsus, mis tagab selle, et teda saab kasutada suvalises Androidi rakenduses suvalisel väljal teksti sisestuseks. Ka Kõnele poolt kasutatav reaalajalise tuvastuse kvaliteet on palju parenenud. Kõnetuvastuse kvaliteedi suur paranemine on teinud praktikas teostatavaks mitmesugused rakendused. Projekti tulemusi kasutab PERHiga koostöös väljatöötatud kõnetuvastussüsteem radioloogidele, lisaks on hetkel käimas teostatavusuuringud kõnetuvastuse kasutamiseks Eesti kohtutes istungiprotokollide koostamiseks ning Politsei- ja Piirivalveametis telefonikõnede transkribeerimiseks. Ka paljud teised riigiametid on kõnetuvastuse juurutamise vastu suurt huvi üles näidanud.