"Riiklik programm: Eesti keeletehnoloogia" projekt EKT71
EKT71 "Eesti keele spontaanse kõne foneetilise korpuse arendused II (1.01.2015−31.12.2017)", Pire Teras, Tartu Ülikool, Humanitaarteaduste ja kunstide valdkond, filosoofia ja semiootika instituut.
EKT71
Eesti keele spontaanse kõne foneetilise korpuse arendused II
1.01.2015
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH351 Foneetika, fonoloogia 6.2. Keeleteadus ja kirjandus100,0
PerioodSumma
01.01.2015−31.12.201550 000,00 EUR
01.01.2016−31.12.201650 000,00 EUR
01.01.2017−31.12.201750 000,00 EUR
150 000,00 EUR

Siin taotletava projekti eesmärgiks on jätkata eesti keele spontaanse kõne foneetilise korpuse arendamist, et suurendada korpuse mahtu, selle rakendatavust ja selle kasutajatele kättesaadavust. Projekti peamised eesmärgid on järgmised: 1) kasvatada korpuse nii sõna- kui ka häälikutasandil märgendatud helifailide mahtu vähemalt 24 tunni võrra. Hetkeseisuga on korpuses nii sõna- kui ka häälikutasandil segmenditud ning märgendatud helifaile kokku 51 tundi, nii et projekti lõpuks tõuseb neil tasanditel segmenditud ja märgendatud failide maht vähemalt 75 tunnile; 2) suurendada korpuse salvestiste mahtu 15 tunni võrra, pidades silmas senisest veel paremat tasakaalu nii monoloogide ja dialoogide osakaalu kui keelejuhtide soolise ja vanuselise jagunemise vahel. Hetkeseisuga on eesti keele spontaanse kõne foneetilisel korpuses ligi 70 tundi salvestisi (spontaansete dialoogide salvestisi 60 ja monoloogide omi 10 tundi). Uued salvestised kasvatavad korpuse mahu vähemalt 85 tunnile. Projekti lisaeesmärgid on järgmised: 1) töötada välja intonatsiooniüksuse kontseptsioon, millele toetudes märgendada lausungitasand. Seni on lausungitasandi märgendus olnud automaatne: toetudes sõna- ja häälikutasandi märgendusele on lausungiks loetud pausidevaheline kõneüksus. Juba selline märgendus annab võimaluse saada infot lausungiprosoodiast, kuid märgendamine lähtuvalt intonatsiooniüksusest muudab saadava info täpsemaks; 2) märgendada automaatset morfoloogilist märgendust kasutades ka morfoloogiliselt kõik sõna- ja häälikutasandil märgendatud failid ning ühestada märgendused; 3) korrastada korpuse metaandmed, st viia metaandmete pakett sellisele kujule, et selle saab lisada korpuse allalaadimispakile. Varem on metaandmed lisatud ainult vastavalt kogukorpuse kasutaja vajadusele, kuid eesmärk on, et see metaandmete pakett kuulub alati korpuse allalaadimise juurde ning annab kõnelejate jm kohta taustainfo saamise võimaluse kõigile kasutajatele; 4) luua kõnekorpuse tööriistade pakett. Korpuse senise ühtlustamise, parandamise ja arendamise käigus on valminud hulk programmi Praat skripte, millega saab leida märgendusvigu ja ebakorrapärasusi, kontrollida ja ühtlustada failide formaati, teisendada märgendust ja lisada failidele mõne välise analüüsiga saadud väärtusi. Korpuse jaoks välja töötatud skripte saab aga kasutada igasuguse programmis Praat märgendatud kõnekorpuse korrastamiseks ja täiendamiseks. Skriptidele lisatakse rohkem paindlikkust ning koondatakse need ühte Praati plugin’i paketti, mis tehakse avalikult kättesaadavaks GitHubi hoidlas. Kõnekorpuse tööriistade paketi loomine ei ole siiski projekti iseseisev eesmärk, vaid see on korpuse arendamise käigus loodud skriptidest saadav lisaväärtus; 5) korpuse otsingumootori arendamise eesmärgil tehakse koostööd Küberneetika Instituudi kõnekorpuste projektidega, et töötada välja kõnekorpuste ühine veebiotsing, mis võimaldab teha senisest veel keerukamaid kombineeritud päringuid ja otsida infot korraga mitmest kõnekorpusest. Ühise otsingumootori arendamisega tegeleb Küberneetika Instituudi projekt „Kõne ja multi-modaalsed korpused“. Veebipõhisest otsingust on kasu nii keeleuurijatele kui laiematele sihtrühmadele (nt keeleõppe arendajad). Suurenenud mahuga ja keeletehnoloogiliste rakenduste tegemiseks mitmekülgselt arendatud korpus pakub senisest suuremaid võimalusi kõigile korpuse kasutajatele, aitab parendada eesti keele kõnetuvastust, pakub tõhusamat treeningmaterjali ja üldiselt paremat kvaliteeti ka teistele keeletehnoloogilistele rakendustele, aga ka suuremat tõenäosust leida arvestatavat kogust materjali uurimuste jaoks ja paremat sotsiofoneetilist esindatust (võimalik eristada materjali soo ja vanuserühmade põhjal, piiratumalt ka hariduse ja piirkondliku tausta järgi).
Projekti eesmärgiks oli jätkata eesti keele spontaanse kõne foneetilise korpuse arendamist, et suurendada korpuse mahtu, selle rakendatavust ja selle kasutajatele kättesaadavust. Projekti põhitulemused on järgmised: 1) kasvatati korpuse nii sõna- kui ka häälikutasandil segmenditud ja märgendatud helifailide mahtu 30 tunni 56 min võrra. Kogu korpuse neil tasanditel segmenditud ja märgendatud failide maht on nüüd 83 tundi 19 min; 2) korpuse salvestiste mahtu suurendati 17 tunni 32 minuti võrra. Kogu korpuse helifailide maht on 89 tundi 32 min. Projekti muud tulemused on need: 1) töötati välja intonatsiooniüksuste märgendamise kontseptsioon, millele toetudes märgendati lausungitasand helifailides kogumahuga 18 tundi 40 min; 2) kõigile sõna- ja häälikutasandil käsitsi märgendatud failidele lisati Filosofti Vabamorfi morfanalüsaatorit kasutades statistiliselt ühestatud morfoloogiline märgendus.; 3) korrastati korpuse metaandmed. Metaandmete pakett (taustainfo kõnelejate ja salvestiste kohta) viidi sellisele kujule, et see lisatakse alati korpuse allalaadimispakile; 4) loodi kõnekorpuste haldamiseks mõeldud tööriistade pakett, millesse koondati korpuse tarvis koostatud programmi Praat skriptid, millega saab märgendust valideerida või lisada märgenduskihte. Skripte saab kasutada ka muude sarnastel põhimõtetel programmis Praat märgendatud kõnekorpuse haldamiseks ja täiendamiseks. Kõnekorpuse haldamiseks mõeldud tööriistade pakett on avalikult kättesaadav GitHubi hoidlas (https://gitlab.keeleressursid.ee/partel/plugin_PhonCorpTools); 5) korpuse otsimootori arendamise eesmärgil tehti koostööd TTÜ tarkvarade instituudi projektiga „Kõne ja multi-modaalsed korpused“, kus on valminud kõnekorpuste otsimootori esimene versioon. Korpus on kõigile kättesaadav Internetis (http://www.keel.ut.ee/et/foneetikakorpus), see on talletatud Eesti Keeleressursside Keskuse repositooriumis ja kajastub MetaShare registris (https://dx.doi.org/10.15155/1-00-0000-0000-0000-00154L).