"Eesti keeletehnoloogia: Baastehnoloogiad ja -ressursid" projekt EKTB24
EKTB24 "Kõnetuvastus (1.01.2018−31.12.2022)", Tanel Alumäe, Tallinna Tehnikaülikool.
EKTB24
Kõnetuvastus
Speech recognition
1.01.2018
31.12.2022
Teadus- ja arendusprojekt
Eesti keeletehnoloogia: Baastehnoloogiad ja -ressursid
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT180 Telekommunikatsioonitehnoloogia 2.2 Elektrotehnika, elektroonika, infotehnika100,0
AsutusRollPeriood
Tallinna Tehnikaülikoolkoordinaator01.01.2018−31.12.2022
PerioodSumma
01.01.2018−31.12.2018134 000,00 EUR
01.01.2019−31.12.2019139 008,55 EUR
273 008,55 EUR

Kõnetuvastus on tehnoloogia, mille abil muudetakse loomulik kõne tekstiks. Kõnetuvastust kasutatakse näiteks dokumentide dikteerimiseks ja helisalvestuste automaatseks transkribeerimiseks. Eestikeelne kõnetuvastus on EKT riikliku programmi toel jõudsalt arenenud. Näiteks raadiosaadete tuvastamisel on juba jõutud 10% vigade määrani. Arengut on toetanud süstemaatiline töö kõnekorpuste arendusel ning kiire areng süvanärvivõrkude kasutamisel masinõppes. Selle projekti eesmärgiks on kõnetuvastuse kvaliteeti veelgi parandada. Üheks fookuseks on need kõne- ja suhtlussituatsioonid, kus praegune tuvastussüsteem palju eksib: mürane kõne, mitme kõnelejaga koosolekud, eakate inimeste kõne ning palju koodivahetust (näit. inglisekeelseid termineid ja väljendeid) sisaldav kõne. Eesmärgi teostamiseks täiustatakse tuvastusalgoritme ja märgendatakse uusi korpuseid. Samuti suurendatakse kõnetuvastussüsteemi paindlikkust, modifitseeritavust ning lihtsustatakse selle kasutuselevõttu.
Speech recognition is a technology for converting natural speech to text. It is used for dictating documents and automatic transcription of speech recordings. Estonian speech recognition has significantly improved during the recent years. On broadcast speech data, a word error rate of 10% has been reached. The improvements have been made possible due to our work on collecting and transcribing new speech corpora and recent advancements in deep neural networks in machine learning. The goal of this project is to further improve the state of Estonian speech recognition. We focus on the kind of speech data which currently causes many recognition errors: noisy data, multi-speaker meetings, speech from seniors, speech with high code-switching content. To fulfil this goal, we will improve the currently used speech recognition methods and algorithms and transcribe new speech corpora. We will also improve the flexibility and usability of our open-source Estonian speech recognition systems.