See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keeletehnoloogia" projekt EKT3
EKT3 (EKT3) "Kõne- ja multimodaalsed korpused (1.01.2011−31.12.2014)", Einar Meister, Tallinna Tehnikaülikool, TTÜ Küberneetika Instituut.
EKT3
Kõne- ja multimodaalsed korpused
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT121 Signaalitöötlus 2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)100,0
PerioodSumma
01.01.2011−31.12.201136 000,00 EUR
01.01.2012−31.12.201236 000,00 EUR
01.01.2013−31.12.201339 000,00 EUR
01.01.2014−31.12.201439 000,00 EUR
150 000,00 EUR

== Taust == Kõnetuvastuses kasutatakse laialdaselt statistilisi mudeleid, mille treenimiseks on vajalikud suuremahulised korpused – mida suurem ja mitmekesisem on treeningmaterjal, seda paremad on tuvastustulemused. Kõnelejast sõltumatu tuvastussüsteemi treenimiseks on vajalik kasutada võimalikult paljude inimeste kõnesalvestusi. Seetõttu on vajalik jätkata olemasolevate kõnekorpuste laiendamist ja koguda uusi eri kõnestiile, sõnavara ja kõnelejarühmi (näiteks lapsi ja noorukeid vanuses 8-15 aastat, võõrkeelse aktsendiga kõnelejaid) kaasavaid kõnekorpusi. Paljud võimalikud kõnetuvastuse rakendused on valdkonnaspetsiifilised ja nende sõnavara on suhteliselt hästi piiritletav, nt pildikirjeldused radioloogias, infopäringud jpm. Selliste rakenduste loomise eelduseks on vajalik valdkonnaspetsiifiliste kõnekorpuste kogumine. EKKTT (2006-2010) projekti EKKTT06-6 „Kõnekeele ressursid ja kõnetehnoloogia andmebaasid“ raames koguti järgmised korpused: 1. raadiouudiste korpus: maht ca 300 tundi, sellest märgendatud 30 tundi; 2. loengukõne korpus: maht ca 350 tundi eri ainevaldkondade akadeemiliste loengute salvestustusi ja üle 20 tunni konverentsiettekandeid, neist märgendatud ca 13 tundi; 3. raadio vestlussaadete korpus: maht ca 20 tundi, kõik märgendatud; 4. aktsendikorpus: maht ca 50 tundi (160 keelejuhti). Projekti lõpparuandele antud hinnang on lisatud failis. == Eesmärgid == Käesolev projektitaotlus (vastab RP EKT (2011-2017) 2. alaeesmärgile) on eelnimetatud projekti otsene järg ja selle raames jätkub eestikeelsete kõnekorpuste salvestamine, märgendamine ja haldus. Projekti tegevused on kavandatud kolmes põhisuunas. 1. Olemasolevate kõnekorpuste laiendamine ja märgendamine: - loengukõne korpus: uute konverentsiettekannete salvestused ja nende märgendamine – eesmärk 30 tundi uusi märgendatud salvestusi; - aktsendikorpus: uute keelejuhtide salvestused ja märgendamine – eesmärk salvestada 40 uut eri keeletaustaga keelejuhti ja märgendada kogu korpus. 2. Uute korpuste kavandamine, salvestus ja töötlus: - raadiointervjuude korpuse kogumine ja märgendamine – eesmärk 80 tundi märgendatud salvestusi; - noorukite (vanuses 8-15) kõnekorpuse kavandamine, salvestamine ja märgendamine: eesmärk salvestada 200 keelejuhti (60 tundi) ja märgendada kogu korpus; - nimede (inimeste, asutuste, kaubamärkide, tänavate, külade, linnade, riikide nimed) korpuse kogumine (läbi telefonikanali) ja märgendamine: eesmärk salvestada ja märgendada kuni 50000 nimeüksust kuni 200 keelejuhiga; - eriliigilised kõnekorpused – valdkonnaspetsiifilise sõnavaraga kõnekorpused kõnetuvastusrakenduste loomiseks ja erinevate kõne foneetilis-fonoloogiliste aspektide (fookusrõhk, kõnetempo jm) eksperimentaalfoneetilisteks uuringuteks vajalikud korpused: kavandatakse ja salvestatakse sõltuvalt esilekerkivatest uurimisvajadustest; - kõneproduktsiooni multimodaalse andmebaasi kavandamine, salvestamine ja märgendamine: eesmärgiks on salvestada eestikeelse kõne artikulatsiooni kirjeldav andmebaas kasutades selleks erinevaid mõõtesüsteeme – larüngograaf, palatograaf, EMA (elektro-magneetiline artikulograafia); 2 keelejuhti (1 mees, 1 naine), kokku ca 4 tundi kõnet; - viipekeele korpuse kavandamine, salvestamine ja märgendamine: eesmärgiks on eesti viipekeele multimodaalse baaskorpuse loomine kasutades video ja 3D ruumilist liikumist registreerivat mõõtesüsteemi. 3. Korpuste salvestusteks, töötluseks ja haldamiseks vajaliku infrastruktuuri arendus: - noorukite kõnekorpuse salvestusteks sobiva mobiilse salvestuskomplekti (sülearvuti, mikrofonid, salvestustarkvara) komplekteerimine ja testimine; - telefonisalvestusteks vajaliku tööjaama (ISDN-liidesed, salvestustarkvara) arendus ja paigaldus; - multimodaalsetel salvestustel kasutatava aparatuuri liidestamine ja tööjaama kohandamine andmete sünkroonseks salvestamiseks; - korpuste haldussüsteemi LAMUS administreerimine, korpuste varundusprobleemide lahendamine, uute korpuste lisamise automatiseerimine. Erinevate korpuste salvestamiseks on TTÜ Küberneetika Instituudi foneetika ja kõnetehnoloogia laboris sobiv salvestusstuudio ja –aparatuur ning eriotstarbelised mõõtesüsteemid: - larüngograaf: Laryngograph Processor (http://www.laryngograph.com) - palatograaf: WinEPG (http://www.articulateinstruments.com) - EMA: Wave Speech System (http://www.ndigital.com/lifesciences/products-speechresearch.php) - 3D süsteem: 3D Investigator Motion Capture System (http://www.ndigital.com/lifesciences/3dinvestigator-motioncapturesystem.php) Korpuste kavandamisel ja kogumisel lähtutakse rahvusvahelisest praktikast, olemasolevatest prototüüpidest ja standarditest. Kõik keelejuhid osalevad salvestustes vabatahtlikult ja neilt küsitakse kirjalik nõusolek nende kõnesalvestuse vabaks kasutamiseks uurimis- ja arendustöös. Kõnekorpusi kasutatakse projektides „Kõnetuvastus“ (KübI, T.Alumäe) ja „Audiovisuaalse kõnesünteesi prototüüp“ (KübI, E.Meister). Kõik korpused tehakse kättesaadavaks Eesti Keeleressursside Keskuse kaudu vastavalt keskuse litsentsitingimustele.
=== PÜSTITATUD EESMÄRGID JA TÄITMINE === 1. Olemasolevate kõnekorpuste laiendamine ja märgendamine == Loengukõne korpus == Eesmärk: koguda ja märgendada 30 tundi uusi salvestusi Täitmine: koguti 45 tundi salvestusi (ettekanded erinevatel konverentsidel, TTÜ akadeemilised loengud eri ainevaldkondades), neist märgendati käsitsi 40 tundi (20 tundi aastal 2011, 20 tundi aastal 2012). == Aktsendikorpus == Eesmärk: salvestada 40 uut eri keeletaustaga keelejuhti ja märgendada kogu korpus Täitmine: Salvestati 45 uut eri keeletaustaga keelejuhti, aktsendikorpus sisaldab nüüd 200 eri keeletaustaga keelejuhi eestikeelset kõnet, kokku ca 80 tundi. Korpuse segmenteerimiseks sõna ja häälikutasandil oli esialgselt kavas teha kahes etapis: esmalt eestikeelse kõne autosegmenteerijat https://phon.ioc.ee/dokuwiki/doku.php?id=projects:tuvastus:est-align.et abil ja seejärel korrigeerida segmendipiire käsitsi. Kuna autosegmenteerija on treenitud eesti emakeelega keelejuhtide kõnenäidete abil, siis osutusid aktsendiga kõne autosegmenteerimise tulemused liialt ebatäpseteks ja piiride käsitsi korrigeerimine ei andnud olulist ajalist võitu võrreldes käsitsi segmenteerimisega. Seetõttu loobuti automaatsest segmenteerimisest ja otsustati teha segmenteerimist käsitsi (programmiga Praat http://www.praat.org), mis annab oluliselt täpsema tulemuse. Käsitsi segmenteerimisel kulub ühe sekundi kõne segmenteerimiseks keskmiselt 5 minutit, seega kuluks kogu korpuse segmenteerimiseks ca 24000 töötundi (töötasu 6 EUR/tund korral kuluks korpuse täies mahus segmenteerimiseks 144000 EUR). Kvaliteetse autosegmenteerija korral oleks oodatav töömaht kujunenud 2-3 korda väiksemaks. Kogu korpuse käsitsi segmenteerimine osutus projekti piiratud finantseerimise tõttu ebareaalseks ja seetõttu segmenteeriti salvestusi valikuliselt, lähtudes eelkõige foneetiliste uuringute vajadustest. Aktsendiga kõne uurimisel alustati eesti vokaalide ja väldete akustiliste tunnuste analüüsiga eri keeletaustaga keelejuhtide kõnes. Selleks segmenteeriti vokaali- ja konsonandikeskseid vältevastandusi sisaldavaid sõnu ja lauseid vene (10 keelejuhti), soome (12 keelejuhti), läti (20 keelejuhti), jaapani (6 keelejuhti) ja rootsi (7 keelejuhti) emakeelega keelejuhtide kõnes, võrdlusmaterjalina segmenteeriti vastavad sõnad ka eesti emakeelega keelejuhtide kõnes. Hinnanguliselt on segmenteeritud ca 15% kogu korpusest. == Raadiouudiste korpus == Projektis ei kavandatud algselt laiendada raadiouudiste korpust, mida koguti ja märgendati EKKTT 200-2010 projekti raames. Kõnetuvastuse vajadustest lähtuvalt otsustati koguda ja märgendada ka värskemaid uudiseid. 2013 märgendati 20 tundi ja 2014 10 tundi uudistesalvestusi. 2. Uute korpuste kavandamine, salvestus ja töötlus == Raadiointervjuude (vestlussaadete) korpus Eesmärk: koguda ja märgendada 80 tundi salvestusi Täitmine: Koguti ja märgendati mitmete raadiojaamade ja ETV vestlussaadete salvestusi igal aastal 20 tundi, kokku 80 tundi. == Laste (noorukid vanuses 8-18) kõnekorpus == Eesmärk: kavandada salvestusteks vajalik tekstikorpus, salvestada 200 keelejuhti (60 tundi kõnet) ja märgendada kogu korpus Täitmine: (1) Tekstikorpuse kavandamine Tekstikorpuse koostamisel võeti aluseks Eesti SpeechDat tüüpi korpuse puhul kasutatud tekstikorpuse struktuur, selles vähendati numbrilist infot sisaldavaid lauseid ja suurendati sidusa ning spontaanse kõne osa. Tekstide valikul arvestati eri vanuserühmadega (3.-4.kl., 5.-6.kl. ja 7.-12.kl). Tekstikorpus sisaldab järgmisi osi (kokku 1385 erinevat tekstiüksust): - ajamäärused, kuupäevad (90) - juhuslikud arvud (60) - numbrijadad (60) - PIN-koodid (150) - IT-laused (150) - lühijutud (erinevad eri vanuserühmadele) (60) - kohanimega laused (erinevad eri vanuserühmadele) (200) - isikunimega laused (erinevad eri vanuserühmadele) (200) - objektinimega laused (150) - telefoninumbrid (150) - vältevastandusi sisaldavad laused (90) - pildid (15) - standardküsimused (10) Loodi veebipõhine rakendus salvestuses kasutatavate tekstide halduseks, lausekomplektide struktuuri kirjeldamiseks ja individuaalsete lausekomplektide automaatseks genereerimiseks. Selles genereeriti tekstikorpusest 350 erinevat ühtse struktuuriga lausekomplekti, mis sisaldavad 70 üksust: - 10 standardküsimust - 3 ajamäärust - 2 kuupäeva - 5 arvu, numbrijada - 4 telefoninumbrit - 3 PIN-koodi - 21 vältevastandust sisaldavat lauset - 5 IT-lauset - 3 kohanimega lauset - 3 isikunimega lauset - 5 objektinimega lauset - 2 lühijuttu - 3 pilti Iga lausekomplekti loeb kaks keelejuhti (1 poiss, 1 tüdruk). Korpuse salvestusteks komplekteeriti mobiilne salvestuskomplekt: sülearvuti, laua- ja peamikrofon, mikrofonivõimendi/AD-muundur (M-Audio MobilePre) ja BAS SpeechRecorder (http://www.bas.uni-muenchen.de/Bas/software/speechrecorder/) kõnesalvestusprogramm. Koostati ja kooskõlastati juristidega salvestamisel osalemise nõusolekuvorm ja keelejuhi taustaandmete kogumiseks kasutatav ankeet. Salvestusi tehti järgmisets koolides: Kehra Gümnaasium - 73 keelejuhti Rocca al Mare Kool - 45 keelejuhti Lilleküla Gümnaasium - 43 keelejuhti Mustamäe Gümnaasium - 24 keelejuhti Narva Eesti Gümnaasium – 14 keelejuhti Jõhvi Gümnaasium – 28 keelejuhti Põlva Ühisgümnaasium – 13 keelejuhti Vastseliina Gümnaasium – 27 keelejuhti Kuressaare Gümnaasium – 24 keelejuhti Salme Põhikool – 13 keelejuhti Labori stuudios salvestati 5 keelejuhti. Kokku salvestati 309 keelejuhti, neist 133 poissi ja 176 tüdrukut. Salvestatud kõnematerjali kestus on 20-25 minutit iga keelejuhi kohta, korpuse kogumaht on ca 100 tundi. Kõigi salvestatud keelejuhtide loetud laused (57 lauset igalt keelejuhilt) segmenteeriti automaatselt sõna ja hääliku tasandil kasutades eestikeelse kõne autosegmenteerijat https://phon.ioc.ee/dokuwiki/doku.php?id=projects:tuvastus:est-align.et 100 keelejuhi spontaanse kõne näiteid (13 üksust) märgendati käsitsi. == Nimeolemite korpus == Eesmärk: salvestada ja märgendada kuni 50000 nimeolemit kuni 200 keelejuhiga Täitmine: Nimeolemite korpuse loomine oli esialgselt kavandatud järgmiselt: (1) kasutada nimeolemite tekstikorpus koostamiseks A. Tkatšenko magistritöös (TÜ 2010) loodud vastavat tarkvaraprototüüpi nelja tüüpi nimega üksuste (isiku-, koha-, organisatsiooni- ja objektinimed) leidmiseks ajakirjanduse korpusest (2) paigaldada salvestusteks vastav tööjaam ja koguda salvestused läbi erinevate sidekanalite (tavatelefon, mobiil, Skype) A. Tkatšenko tarkvaraprototüüpi kasutades leiti ajakirjanduse korpusest isiku-, koha-, organisatsiooni- ja objektinimesid, kokku ligi 100000 nimeolemit, paigaldati ka salvestusteks vajalik ISDN-liidesega tööjaam, aga keelejuhtide (planeeritud 200) värbamine, individuaalsete tekstikorpuste genereerimine jm tehniline töö oleks kujunenud väga töömahukaks. Seetõttu otsustati nimeolemeid märgendada uudistesalvestustes järgmiselt: - asukohad [ent=loc-] Saksamaal [-ent=loc] - isikud [ent=pers-] Angela Merkel [-ent=pers] - organisatsioonid [ent=org-] Keskkonnaamet [-ent=org] - tooted [ent=prod-] Aktuaalne Kaamera [-ent=prod] - objektid [ent=fac-] Kostivere mõisas [-ent=fac] 2013 märgendati uudistesalvestustes (20 tundi) 8573 nimeolemit: asukohad: 3935 isikud: 2213 organisatsioonid: 1571 tooted: 460 objektid: 394 == Eriliigilised kõnekorpused == Eesmärk: kavandada ja salvestada kõnekorpusi sõltuvalt esilekerkivatest uurimisvajadustest Täitmine: Koostati tekstikorpus fookusrõhu akustiliste tunnuste eksperimentaalfoneetiliseks uurimiseks, milles iga uuritav sõna on kolmes erinevas rõhupositsioonis (lauserõhutu, lauserõhuline, kontrastiivne fookusrõhk) ja see salvestati 11 keelejuhiga. Tajukatsetes hinnati fookusrõhu taju erinevates lausetes ja edasiseks akustiliseks analüüsiks valiti 9 keelejuhi salvestused (kahe keelejuhi kõnes ei olnud fookusrõhk alati kuuldeliselt eristatav tavalisest lauserõhust). 9 keelejuhi salvestustes segmenteeriti käsitsi fookusrõhulised sõnad (iga keelejuhi puhul 126 sõna) segmendi tasandil. Segmenteeritud materjali kasutati koostööprojektis Oulu ülikooliga, mille raames võrreldi fookusrõhu akustilisi tunnuseid eesti ja soome keeles. Uuringu tulemused on avaldatud kolmes artiklis (Suomi, Meister & Ylitalo 2011; Suomi & Meister 2012; Suomi et al. 2013) == Kõneproduktsiooni multimodaalne andmebaas == Eesmärk: salvestada eestikeelse kõne artikulatsiooni kirjeldav andmebaas kasutades selleks erinevaid mõõtesüsteeme – larüngograaf (LG), elektro-palatograaf (EPG), elektro-magneetiline artikulograafia (EMA); 2 keelejuhti (1 mees, 1 naine), kokku ca 4 tundi kõnet Täitmine: Esialgne idee oli kasutada kõneproduktsiooni andmebaasi salvestamisel üheaegselt kõiki olemasolevaid artikulatsiooniorganite tööd registreerivaid mõõteseadmeid – LG, EPG ja EMA. Proovisalvestustel selgus, et EPG ja EMA üheaegne kasutamine ei ole mõistlik, sest kunstliku suulae ja keelele kinnitatavate sensorite samaaegsel kasutamisel muutub keelejuhi artikulatsioon sedavõrd ebaloomulikuks, et saadavad mõõtmisandmed ei kajasta enam tegelikku artikulatsiooniorganite liikumist. Seetõttu on paratamatu teha salvestusi kahe süsteemiga eraldi ja püüda sünkroniseerida andmeid hilisema andmetöötluse käigus. LG ja EPG samaaegne kasutus on võimalik tänu EPG tarkvara võimalusele salvestada kahekanalilist signaali. Salvestustel kasutati kahte keelejuhti, kelle jaoks on eelnevalt valmistatud individuaalsed kunstlikud suulaed. Salvestusteks koostati tekstikorpus, mis sisaldab kahesilbilisi VCV ja CVCV struktuure, milles on esindatud kõik eesti keeles esinevad vokaalide ja konsonantide kombinatsioonid. Lisaks koostati sagedasemaid konsonantklastreid sisaldavate sõnade korpus, mille aoluks on ajakirjanduse korpuse baasil tehtud konsonantklastrite statistika. Analüüsiti 813410 sõna, leiti sagedasemad klastrid sõna alguses, keskel ja lõpus: sõna alguses: stop-fricative, fricative-stop, stop-liquid, fricative-liquid sõna keskel: liquid-stop, nasal-stop, stop-fricative, fricative-stop, stop-liquid, liquid-fricative, etc. sõna lõpus: nasal-stop, fricative-stop, stop-fricative, liquid-stop, stop-stop, liquid-nasal salvestusteks valiti 448 sõna. VCV ja CVCV struktuure sisaldav korpus on salvestatud kahes etapis: 1. EMA-ga on salvestatud keele (3 sensorit keele telgjoonel), huulte (8 sensorit huultel) ja alalõua (1 sensor) liikumisandmestik koos audiosignaaliga 2. LG ja EPG abil on salvestatud keele kontaktid suulaega, lisaks ka sünkroonne audiosignaal. Konsonantklastrite korpus on salvestatud LG ja EPG abil (koos audioga). Kõik salvestused on segmenteeritud ja viidud EMU/R andmebaasisüsteemiga ühiduvasse formaati. == Viipekeele korpus == Eesmärk: eesti viipekeele multimodaalse baaskorpuse loomine kasutades video ja 3D ruumilist liikumist registreerivaid mõõtesüsteeme EMA ja optiline 3D süsteem (NDI 3D Investigator). Täitmine: Algses projektitaotluses oli kavandatud ka viipekeele korpuse salvestus video ja 3D süsteemidega, kuid see ülesanne jäi sobiva tööjõu vähesuse ja suure töömahu tõttu täitmata. Samuti pole praegu Eesti uurijaid, kes tunneks huvi sellise korpuse vastu (korpus oleks vajalik eesti viipekeele roboti loomiseks). 3. Korpuste salvestusteks, töötluseks ja haldamiseks vajaliku infrastruktuuri arendus Eesmärgid: (1) lastekõne korpuse salvestusteks sobiva mobiilse salvestuskomplekti komplekteerimine ja testimine; (2) telefonisalvestusteks vajaliku tööjaama arendus ja paigaldus; (3) multimodaalsetel salvestustel kasutatava aparatuuri liidestamine ja tööjaama kohandamine andmete sünkroonseks salvestamiseks; (4) korpuste haldussüsteemi LAMUS administreerimine, korpuste varundusprobleemide lahendamine, uute korpuste lisamise automatiseerimine Täitmine: (1) Lastekõne korpuse salvestusteks komplekteeriti mobiilne salvestuskomplekt: sülearvuti, laua- ja peamikrofon, mikrofonivõimendi/AD-muundur (M-Audio MobilePre) ja BAS SpeechRecorder (http://www.bas.uni-muenchen.de/Bas/software/speechrecorder/) (2) Paigaldati telefonisalvestusteks vajaliku tööjaam (3) Multimodaalsetel salvestustel kasutatava aparatuuri (LG, EPG, EMA) liidestamine ei ole lihtsate vahenditega teostatav, sest eri mõõtesüsteemide tarkvara lähtekood pole avalik. Riistvaraline sünkroniseerimine oleks võimalik, aga kõigi sensorite kasutamine moonutab artikulatsiooniprotsessi ja saadavad artikluatsiooniandmed pole tõepärased. (4) Korpuste halduse ja LAMUSe arendusega on tegeldud jooksvalt, see on eelkõige EKRK projekti ülesanne. Enamik projekti ülesandeid on realiseeritud kavandatud või suuremas mahus. === PROJEKTI TULEMUSTE KASUTAMINE === Uudiste, vestlussaadete ja loengukõne korpusi kasutatakse eestikeelse kõnetuvastuse treenimisel T.Alumäe projektis "Kõnetuvastus" ja selle jätkuprojektis "Kõnetuvastus 2" (2014-2017). Tänu korpuste mahu pidevale kasvule on kõnetuvastuse kvaliteet viimastel aastatel oluliselt paranenud. Aktsendikorpus on leidnud rakendust eelkõige eksperimentaalfoneetilistes uuringutes. Aastatel 2011-2014 on ilmunud üle 10 publikatsiooni, mis käsitlevad aktsendikorpuse kirjeldust ja eesti keele fonoloogiliste kategooriate (eelkõige välted ja vokaalid) hääldust ning taju eri keeletaustaga keelejuhtide kõnes. 2015 on ilmumas vähemalt 2 publikatsiooni. Aktsendikorpust saab kasutada ka kõnetuvastuse akustiliste mudeli adapteerimiseks aktsendiga paremaks kõne tuvastamiseks. Laste kõnekorpust on kavas kasutada eksperimentaalfoneetilisetes uuringutes ja kõnetuvastuse treenimiseks. On esitatud kaks korpust tutvustavat konverentsiettekannet, 2015 on planeeritud kaks publikatsiooni. Fookusrõhu akustiliste tunnuste uurimiseks loodud korpuse baasil on tehtud kaks konverentsiettekannet ja ilmunud kolm publikatsiooni. Kõneproduktsiooni andmebaasi kasutatakse artikulatsiooniuuringutes: tegemisel on üks TÜ magistritöö (A.Malmi), 2015 on plaanis avaldada vähemalt 2 artiklit. Artikulatsiooni andmeid on kasutatud ka AV-kõnesünteesi projektis (EKT17). Ligipääs uudiste, vestlussaadete ja loengukõne korpustele on vaba http://bark.phon.ioc.ee/avalik/ekt2014/korpused_avalik/ Aktsendikorpus, lastekõne korpus ja artikulatsioonisalvestused on kättesaadavad http://bark.phon.ioc.ee/avalik/ekt2014/korpused/, ligipääsuks on vajalik kasutajatunnus ja salasõna. Korpuste viimine EKRK serverisse ja kättesaadavaks tegemine vastavalt litsentsitingimustele viiakse lõpule 2015.a esimeses pooles. Korpuste arendus jätkub jätkuprojektis EKT70 (2015-2017).