"Eesti keeletehnoloogia: Baastehnoloogiad ja -ressursid" projekt EKTB3
EKTB3 "Eesti keele spontaanse kõne foneetilise korpuse arendused III (1.01.2018−31.12.2022)", Pärtel Lippus, Tartu Ülikool, Humanitaarteaduste ja kunstide valdkond, eesti ja üldkeeleteaduse instituut.
EKTB3
Eesti keele spontaanse kõne foneetilise korpuse arendused III
Development of the Phonetic Corpus of Spontaneous Estonian Speech III
1.01.2018
31.12.2022
Teadus- ja arendusprojekt
Eesti keeletehnoloogia: Baastehnoloogiad ja -ressursid
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH351 Foneetika, fonoloogia 6.2 Keeled ja kirjandus90,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.2 Arvutiteadus ja informaatika10,0
PerioodSumma
01.01.2018−31.12.201845 000,00 EUR
01.01.2019−31.12.201948 000,00 EUR
93 000,00 EUR

Eesti keele spontaanse kõne foneetiline korpus koosneb kõne salvestistest, mis on märgendatud erinevatel lingvistilistel tasanditel: märgitud on sõnad ja häälikud ning nende piirid helisignaalis. Korpus sisaldab põhiliselt kahe osalejaga vestlusi. Hetkeseisuga on korpuses salvestusi 130 eri kõnelejat, kokku 83 tundi helifaile, mis sisaldavad 635 000 sõna. Korpust kasutatakse keeletehnoloogiliste rakenduste treenimiseks (nt kõnetuvastus, dialoogsüsteemid) ning erinevate keeleteaduslike küsimuste uurimiseks. Projekti eesmärk on täiendada korpust uute salvestuste ja märgendusega. Uued salvestused tehakse koos videoga, mis võimaldab korpust kasutada ka näiteks virtuaalsete agentide arendamiseks. Projekti tulemusena kasvab korpuse märgendatud salvestuste maht 133 tunnini ehk umbes miljoni sõnani. Suurem korpus tõstab arendatavate rakenduste kvaliteeti ja annab korpuse põhjal tehtavatele uurimustele üldistusvõimet.
The Phonetic Corpus of Estonian Spontaneous Speech consists of recordings that have been annotated on different linguistic tiers including words and segments and their boundaries in the speech signal. The corpus mainly contains dialogues. There are recordings from 130 speakers, in total 83 hours of sound files containing 635 000 words. The corpus is used for training various language technological applications (e.g. speech recognition, dialogue systems) and for studying different linguistic research questions. The aim of the project is to add new recordings and annotations to the corpus. New recordings will also include video, which would enable the corpus to be used for the development of virtual agents. As a result of the project the number of annotated recordings will reach 133 hours i.e. about 1 million words. A larger corpus will increase the quality of the applications under development, and will provide a broader basis for the studies using the corpus materials.