See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keeletehnoloogia" projekt EKT70
EKT70 (EKT70) "Kõnekorpuste arendus (1.01.2015−31.12.2017)", Einar Meister, Tallinna Tehnikaülikool, TTÜ Küberneetika Instituut, Tallinna Tehnikaülikool, Infotehnoloogia teaduskond, Tarkvarateaduse instituut.
EKT70
Kõnekorpuste arendus
1.01.2015
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH351 Foneetika, fonoloogia 6.2. Keeleteadus ja kirjandus30,0
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT121 Signaalitöötlus 2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)70,0
PerioodSumma
01.01.2015−31.12.201575 000,00 EUR
01.01.2016−31.12.201675 000,00 EUR
150 000,00 EUR

Projekti eesmärgid on järgmised: 1. Olemasolevate korpuste laiendamine ja märgendamine: - uudiste, intervjuude ja vestlussaadete korpus: uute salvestuste kogumine eri meediakanalitest ja nende transkribeerimine – eesmärgiks on 80 tundi uusi transkribeeritud salvestusi, - loengukõne korpus – eesmärgiks on transkribeerida 10 tundi olemasolevaid salvestusi, - lastekõne korpus – eesmärgiks on käsitsi segmenteerida ja märgendada 30% korpusest lause, sõna ja hääliku tasemel ning transkribeerida kõigi keelejuhtide spontaanset kõnet sisaldavad lõigud, - aktsendikorpus: salvestuste märgendamine – eesmärgiks on käsitsi segmenteerida ja märgendada 25% korpusest lause, sõna ja hääliku tasemel ning transkribeerida kõigi keelejuhtide spontaanset kõnet sisaldavad lõigud. 2. Korpuste dokumenteerimine ja valideerimine: - koostatakse eelnimetatud korpuste dokumentatsioon ja meta-andmestik (tehniline info, korpuse sisu kirjeldus, keelejuhtide andmed, märgenduse kirjeldus, statistilised andmed), - valideeritakse eelnimetatud korpused (dokumentatsioon, meta-andmed, signaalifailid, märgendfailid). 3. Kõnekorpuste integreerimine ja otsingumootori arendus: - luuakse KübI (aktsendikorpus ja lastekõne korpus) ja TÜ (spontaanse kõne korpus) korpustele ühtne kasutajaliides ja otsingumootor. 4. Korpuste kättesaadavaks tegemine: kõik korpused tehakse täies mahus kättesaadavaks Eesti Keeleressursside Keskuse (EKRK) kaudu. Ideaalne oleks lastekõne korpuse ja aktsendikorpuse käsitsi segmenteerimine täies mahus, kuid see eeldaks suurema hulga segmenteerijate koolitamist ja kaasamist ning oluliselt suuremat rahastust. Hinnates reaalseid võimalusi (segmenteerijate olemasolu ja jõudlus), on kavandatud segmenteerida ca 30% lastekõne korpuse ja ca 25% aktsendikorpuse kogumahust. Projekti tulemusena kasvab oluliselt kõnetuvastuse treenimiseks ja foneetilisteks uuringuteks vajalike korpuste maht, mis omakorda võimaldab parandada kõnetuvastuse kvaliteeti ja saada usaldusväärsemaid tulemusi foneetilistes uuringutes. Seni on eestikeelse kõnetuvastuse treenimiseks kasutatud ainult eesti emakeelega täiskasvanute kõnenäiteid, lastekõne korpus võimaldab kohandada kõnetuvastust laste kõne paremaks tuvastamiseks, aktsendikorpus võimaldab kõnetuvastust adapteerida ka aktsendiga kõnele. Erinevate korpuste olemasolu ja kättesaadavus loob uusi võimalusi rahvusvaheliseks koostööks nii keeletehnoloogia kui ka foneetikauuringute alal. Aktsendikorpus ja lastekõne korpus on üsna unikaalsed, analoogseid korpusi teistes keeltes on vähe (peamiselt inglise ja saksa keeles).
Projekti eesmärgiks oli arendada eestikeelse kõnetuvastuse treenimiseks ja eesti keele eksperimentaalfoneetilisteks uuringuteks vajalikke kõnekorpusi, luua erinevate kõnekorpuste jaoks ühtne otsimootor ning teha korpused kättesaadavaks Eesti Keeleressursside Keskuse kaudu. Projekti raames arendati järgmisi kõnekorpusi: - uudiste, intervjuude ja vestlussaadete korpus - loengukõne korpus - aktsendikorpus - lastekõne korpus Uudiste, intervjuude ja vestlussaadete salvestusi koguti erinevate raadio- ja telekanalite veebilehtedelt ning korpust täiendati 67 tunni transkribeeritud kõnematerjali võrra. Loengukõne korpus sisaldab eri valdkondade akadeemiliste loengute ja teaduskonverentside ettekannete salvestusi, selle maht kasvas projekti kestel 10 tunni transkribeeritud kõnematerjali võrra. Lastekõne korpus sisaldab 9–18 aastaste keelejuhtide kõnet, 309 keelejuhti (134 poissi ja 175 tüdrukut), igalt keelejuhilt ca 15 minutit, kokku ca 72 tundi salvestusi. Projekti raames segmenteeriti/märgendati käsitsi 43% korpuse mahust ja transkribeeriti kõik spontaanse kõne näited. Aktsendikorpuse sisaldab 206 keelejuhi kõnet eesti keele kui võõrkeele häälduse eksperimentaalfoneetiliseks uurimiseks ja keeletehnoloogiliste rakenduste (nt kõnetuvastuse treenimine aktsendiga kõne tuvastamiseks, kõneleja emakeele automaatne tuvastamine, jm) arendamiseks. Projekti raames segmenteeriti/märgendati käsitsi 27% korpuse mahust. Loodi eri korpusi (lastekõne korpus, aktsendikorpus, TÜ foneetiline korpus) integreeriv otsingumootor, mis võimaldab teha päringuid erinevatel märgendustasemetel (sõna, silp, häälik, cv, morf) kasutades erinevaid otsikriteeriume. Lisaks saab määrata mitu eelnevat ja järgnevat sõna soovitakse tulemuses näha ning kui suur arv tulemusi näidata. Otsingu tulemus esitatakse HTML tabelina ning kuvatakse vastav helifail. Koostati korpuste dokumentatsioon ja meta-andmestik. Korpused on kättesaadavad Eesti Keeleressursside Keskuse kaudu vastavalt litsentsitingimustele.