"Riiklik programm: Eesti keeletehnoloogia" projekt EKT4
EKT4 "Eesti keele spontaanse kõne foneetilise korpuse arendused (1.01.2011−31.12.2014)", Pire Teras, Tartu Ülikool, Filosoofiateaduskond.
EKT4
Eesti keele spontaanse kõne foneetilise korpuse arendused
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201141 000,00 EUR
01.01.2012−31.12.201225 000,00 EUR
01.01.2013−31.12.201332 000,00 EUR
01.01.2014−31.12.201432 000,00 EUR
130 000,00 EUR

Riikliku programmi üks eesmärke on luua ja arendada keeleressurssidest kõnekeele ressursse, mille alla kuuluvad ka eri liiki loomuliku kõne korpused. Antud projekti eesmärgiks on arendada nii eesti spontaankõne foneetilist korpust kui korpuse otsingusüsteemi. Korpust saab kasutada keeletarkvara väljatöötamiseks, kõnetuvastuse ja kõnesünteesi arendamiseks. Kavandatav projekt on loogiliseks jätkuks riikliku programmi „Eesti keele keeletehnoloogiline tugi (2006–2010)” projektile „Eesti keele spontaanse kõne foneetiline korpus”, mille käigus loodud ressursid ei ole veel piisavad ning vajavad arendamist. Viidatud projekti tulemusel sisaldab korpus praegu 35 keelejuhilt salvestatud kõnet (kogukestusega 28 tundi), mis on koguulatuses segmenditud ja märgendatud sõna-, hääliku-, häälikustruktuuride ja lausungitasandil; sellest üle poole on märgendatud lisaks silbitasandil ning samavõrra on kahe esimese tasandi märgendamist kontrollitud ja ühtlustatud teise märgendaja poolt. Korpuse arendamiseks on kavandatava projekti üks eesmärke kasvatada salvestuste maht vähemalt 80 tunnini. Selleks tehakse salvestused kuni 80 keelejuhiga, võttes arvesse võimalikult ühtlast jaotumist lähtuvalt vanusegrupist, soost, piirkondlikust ja sotsiaalsest taustast. Lindistatakse nii argi- kui ametlikke vestlusi ja ametlikke monolooge. Uusi lindistusi märgendatakse esmalt sõna- ja häälikutasandil. Lisaks käsitsi märgendamisele on kavas katsetada neil tasanditel poolautomaatset märgendamist, kasutades kõnetuvastuse abi (uute salvestuste tekst saadakse esmalt automaatse kõnetuvastuse abil, mida seejärel käsitsi korrigeeritakse). Lisaks jätkatakse nii varasemate kui uute lindistuste märgendamist muudel lingvistilistel kihtidel. Nende märgendamisel kasutatakse skriptide abi. Skriptiga märgendatu kontrollitakse käsitsi. Silbitasandi märgendamise kontrollimise käigus kontrollib ja ühtlustab märgendaja paralleelselt ka kahe esimese tasandi märgendamist. Kavas on arendada silbikihist alates poolautomaatset märgendust eri kihtidel skriptide abil, aga arendada ka märgendamise kontrollsüsteemi. Lingvistilistest kihtidest lisatakse kõnetaktid, intonatsiooniüksused ja sõnatasandile morfoloogiline info. Kõnetaktitasandil märgitakse kõnetakti piirid ja info pea- või kaasrõhulise takti välte kohta. Lausungitasandi täpsemaks märgendamiseks hakatakse lisaks eraldi kihil märgendama intonatsiooniüksusi, mille märgendamiseesmärgiks on tuvastada reeglid, mis määravad intonatsiooniüksuste piirid eesti keeles. Saadud reegleid saaks kasutada näiteks kõnesünteesis ja kõnetuvastuses. Kavas on sõnatasandi märgendusele lisada automaatne morfoloogiline märgendus. Lingvistilistele kihtidele lisatakse kihid häälekvaliteedi, paralingvistiliste nähtuste ning muu info tarvis. Suuremamahulise korpuse põhjal on kavas teha ka üldanalüüse, et saada ülevaade eesti keele spontaanse kõne foneetilisest struktuurist. Kavas on arendada ka korpuse veebipõhist otsingumootorit (http://www.murre.ut.ee/otsing/ekskfk.php), mis võimaldaks teha korpusest senisest keerulisemaid kombineeritud päringuid, aga morfoloogilise märgenduse järel saada infot ka spontaankõne morfoloogia kohta. Arendatav korpus on kättesaadav kõigile Internetis (http://www.murre.ut.ee/foneetikakorpus/). Kui avaliku otsingumootoriga tehtavad otsingud on keelejuhtide privaatsuse kaitsmiseks mõningate piirangutega, siis korpuse kasutamistingimustega kirjalikult nõustunul on võimalik pääseda ligi kogu korpusele. Projekti raames tehakse koostööd teiste kõnekeele korpustega, kõnetuvastuse ja kõnesünteesiga seotud projektidega. Korpus kajastub ka CLARINi andmebaasis: http://www.clarin.eu/resources/3240.