"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-17
EKKTT06-17 "Eesti kõnekeele korpuse kogumine ja translitereerimine (1.01.2006−31.12.2008)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKKTT06-17
Eesti kõnekeele korpuse kogumine ja translitereerimine
1.01.2006
31.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2006−31.12.2008
PerioodSumma
01.01.2006−31.12.2006330 000,00 EEK (21 090,84 EUR)
01.01.2007−31.12.2007270 000,00 EEK (17 256,15 EUR)
01.01.2008−31.12.2008445 000,00 EEK (28 440,68 EUR)
66 787,67 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : NB Käesolev projekt on jätkuprojekt, mis algas aastal 2004 ja lõpeb aastal 2008. Projekti eesmärk on koguda 5 aasta jooksul 2 000 000-tekstisõnaline kõnekeele korpus (Eesti keelestrateegia eesmärk). Kõnekeele korpus on hädavajalik kõigi projektide jaoks, mis analüüsivad ja modelleerivad suulist keelt ja selle kasutust. Korpus on allikas eesti suulise kõne keeleteaduslikuks ja dialoogimudelite analüüsiks. Analüüs omakorda on eelduseks kõne rakenduste tegemisele, nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, suulise teksti refereerimise ja sisukokkuvõtete programmidele, interaktiivsetele keeleõpperogrammidele, mille abil õpetatakse tegelikku kõnekeelt. Samuti on ta eelduseks suulise keele erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Korpusesse kuulub ühe osana Kõnepuudega inimeste suulise keele erikorpus (kogusuurusega 10 000 tekstisõna), mis võimaldab uurida seda kõnet ja on abiks suhtluspuude leevendamise vahendite väljatöötamisel. Selline korpus peab sisaldama erinevate suuliste allkeelte materjale. Nende liigid ja maht on osalt teoreetiliselt määratav, osalt vaja kooskõlastada projektidega, mis hakkavad korpuse materjali kasutama. 1. Korpuse koostamiseks on vaja teha üldorganiseerivad tööd: koostada üldkorpuse ja ka teiste projektide jaoks vajalike alamkorpuste (infodialoogid, eriti telefonikõned) struktuuri ja mahtude jaotus. 2. Uue korpuse koostamine koosneb kahest poolest: a) tekstide lindistamine b) tekstide litereerimine ja märgendamine ning taustakirjalduste koostamine. 3. Varasemad korpuse osad on analooglindistused. Tänapäevane töö korpusega nõuab digitaalset materjali. Seetõttu on vaja minna üle korpuse digitaalsele kogumisele ja töötlemisele. Selleks on vajalikud: a) ettevalmistavad tööd: -taustakirjelduste automaatanalüüsile üleviimine (korrastamine, automaatanalüüsi programmi tegemine) - eestikeelne juhend transkribeerimisprogrammi CLAN jaoks - võrgus oleva juhendmaterjali korrastamine ja väljatöötamine b) varasema materjali digitaliseerimine. 4. Praegune korpus on peaaegu eranditult kõneldud tesktide korpus. Viimastel aastatel on maailmas üle mindud suures osas keele ja mitteverbaalse suhtluse koosuurimisele (multimodaalsus). Selleks on vajalikud videolindistused. Eesmärgiks on teha osa uusi lindistusi videoformaadis (klassidialoogid). 5. Korpuse pidev koostamine nõuab eraldi administraatori tööd, kes juhiks materjalide liikumist ja dokumenteerimist, suhtleks materjalide kasutajatega ja korpuse koostajatega. 6. Korpuse ja selle põhjal tehtud töid on vaja pidevalt tutvustada nii eesti kui rahvusvahelisele uurijaskonnale. Selleks on vajalik osalemine konverentsidel ja artiklite kirjutamine erinevatesee väljaannetesse. 7. Korpuse tegemine nõuab tehnikat (videokaamerad, magnetofonid, diktofonid, CD ja DVD toorikud jms) ja programme, mille abil materjali töödelda ja koprusest otsida. Osa neist on saadaval internetis vabavarana, osa tuleb osta, osa teha koostöös teiste projektidega. Projektis osalevad Tartu ülikooli suulise keele ja suhtluse uurijad: Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Andriela Rääbis, Krista Strandson. Projekt on seotud ka nende doktoritööde materjalidega. Lisaks aitavad projekti jaoks kaasa Tartu ülikooli suulise kõnega seotud loengute kuulajad-üliõpilased, kes lindistavad ja litereerivad.