"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-16
EKKTT06-16 "Eesti keele spontaanse kõne foneetiline korpus (1.01.2006−31.12.2010)", Pire Teras, Tartu Ülikool, Filosoofiateaduskond.
EKKTT06-16
Eesti keele spontaanse kõne foneetiline korpus
1.01.2006
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2006−31.12.2010
PerioodSumma
01.01.2006−31.12.2006500 000,00 EEK (31 955,82 EUR)
01.01.2007−31.12.2007500 000,00 EEK (31 955,82 EUR)
01.01.2008−31.12.2008774 000,00 EEK (49 467,62 EUR)
01.01.2009−31.12.2009691 635,00 EEK (44 203,53 EUR)
01.01.2010−31.12.2010612 000,00 EEK (39 113,93 EUR)
196 696,72 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Keele akustika uurimise ja kõnetehnoloogiliste rakenduste loomise aluseks on esinduslikud kõnekorpused (Campbell 2001, 2005), mis spontaanse eesti keele kohta tuleb alles luua. Ei piisa üksnes laborkõne lindistuste analüüsimisest, sest laborkõne on oluliselt erinev reaalsest spontaansest kõnest. Kuna spontaanses kõnes on palju kontekstist ja erinevatest välistest teguritest tingitud varieerumist, peab kasutama oluliselt suuremat andmehulka, kui laborkõne puhul on olnud tavaline. Samuti tuleb spontaanse kõne salvestamisel arvestada keskkonna loomisega, mis tagaks võimalikult loomuliku kõnesituatsiooni. Selle projekti eesmärgiks on luua teiste eestikeelse kõne korpustega ühilduv spontaanse kõne foneetiliselt märgendatud korpus, mida saab kasutada eesti keele häälduse põhiparameetrite analüüsimisel ning eesti keele kõnesünteesi ja kõnetuvastuse ülesannete täitmisel. Projekti käivitamiseks on tehtud juba eeltöid TÜ eesti ja sugulaskeelte foneetika töörühmas, sh alustatud spontaanse avaliku kõne märgendamisega (märgendatud 0,5 tundi kõnet, u 20 000 märgendusühikut) ja uuritud eestikeelsete pikemate sõnade prosoodilist struktuuri (vt nt Lippus jt 2006). Eesti keele spontaanse kõne foneetilise korpuse jaoks on vaja teha kõigepealt spontaanse kõne kõrge kvaliteediga salvestusi. Olemasolev TÜ suulise kõne korpus on koostatud teistel eesmärkidel (suulise kõne diskursuse struktuuri uurimine) ega sobi enamasti foneetikaalasteks uurimusteks. Loodavasse foneetilisse korpusse salvestatakse 40 keelejuhi (20 naist + 20 meest) kolme laadi kõnetekste: argivestlused, institutsionaalne vestlused, institutsionaalsed monoloogid (viimase puhul on tegemist nn ettevalmistatud spontaanse kõnega). Korpusesse valitakse 20–60-aastased eesti keelt emakeelena rääkivad keelejuhid, arvestades piirkondlikku ja hariduslikku esinduslikkust (st korpus sisaldab ka väiksema haridusega ja maapiirkondade inimeste kõnet). Korpuse loomisel arvestatakse selle tehnilise ja semantilise ühilduvusega Eesti Keele Instituudi kõnesünteesi ja TTÜ Küberneetikainstituudi kõnetuvastuse foneetiliste korpustega (lindistatakse ka selliseid keelejuhte, kes oleksid samad kõigis kolmes korpuses). Salvestatud kõne tuleb foneetiliselt märgendada erinevatel märgenduskihtidel. Märgenduskihid, segmentimis- ja transkribeerimisalused jms lepitakse kokku koostöös Eesti Keele Instituudi ning TTÜ Küberneetikainstituudi foneetika ja kõnetehnoloogia laboriga. Koostöö tulemusel on korpus kasutatav nii kõnetehnoloogiliste rakenduste arendamiseks kui eesti keele foneetika teoreetiliseks uurimiseks. Märgendamine on korpuse loomisel kõige töömahukam etapp. Kuna töökindel automaatse märgendamise võimalus seni veel puudub, tuleb korpus märgendada käsitsi (loodav korpus aitab küll luua automaatse segmentimise tarkvara). Nii kulub 1 sekundi kõnematerjali segmentimiseks erinevatel märgendustasanditel kokku u 1000 sekundit tööd. Sellest lähtuvalt on planeeritava andmebaasi mahuks esimesel etapil vähemalt 20 tunni (30 minutit 40 keelejuhilt) kõnematerjali märgendamine. Viited: Campbell, Nick 2005. Developments in Corpus-Based Speech Synthesis; Approaching Natural Conversational Speech. IEICE Transactions on Information & Systems, Vol E88-D, No.3, 376–383. Campbell, Nick 2001. Building a corpus of natural speech - and tools for the processing of expressive speech. – Proceedings of EUROSPEECH-2001, Scandinavia, 1525–1528. Lippus, Pärtel, Karl Pajusalu, Pire Teras 2006. The Temporal Structure of Penta- and Hexasyllabic Words in Estonian. – Proceedings of Speech Prosody 3rd International Conference. Dresden, May 2–5, 2006. Dresden: 759–762.