"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-17
EKKTT06-17 "Eesti kõnekeele korpuse kogumine ja translitereerimine (1.01.2006−31.12.2008)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKKTT06-17
Eesti kõnekeele korpuse kogumine ja translitereerimine
1.01.2006
31.12.2008
Riiklik programm: Eesti keele keeletehnoloogiline tugi
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2006−31.12.2008
PerioodSumma
01.01.2006−31.12.2006330 000,00 EEK (21 090,84 EUR)
01.01.2007−31.12.2007270 000,00 EEK (17 256,15 EUR)
01.01.2008−31.12.2008445 000,00 EEK (28 440,68 EUR)
66 787,67 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : NB Käesolev projekt on jätkuprojekt, mis algas aastal 2004 ja lõpeb aastal 2008. Projekti eesmärk on koguda 5 aasta jooksul 2 000 000-tekstisõnaline kõnekeele korpus (Eesti keelestrateegia eesmärk). Kõnekeele korpus on hädavajalik kõigi projektide jaoks, mis analüüsivad ja modelleerivad suulist keelt ja selle kasutust. Korpus on allikas eesti suulise kõne keeleteaduslikuks ja dialoogimudelite analüüsiks. Analüüs omakorda on eelduseks kõne rakenduste tegemisele, nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, suulise teksti refereerimise ja sisukokkuvõtete programmidele, interaktiivsetele keeleõpperogrammidele, mille abil õpetatakse tegelikku kõnekeelt. Samuti on ta eelduseks suulise keele erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Korpusesse kuulub ühe osana Kõnepuudega inimeste suulise keele erikorpus (kogusuurusega 10 000 tekstisõna), mis võimaldab uurida seda kõnet ja on abiks suhtluspuude leevendamise vahendite väljatöötamisel. Selline korpus peab sisaldama erinevate suuliste allkeelte materjale. Nende liigid ja maht on osalt teoreetiliselt määratav, osalt vaja kooskõlastada projektidega, mis hakkavad korpuse materjali kasutama. 1. Korpuse koostamiseks on vaja teha üldorganiseerivad tööd: koostada üldkorpuse ja ka teiste projektide jaoks vajalike alamkorpuste (infodialoogid, eriti telefonikõned) struktuuri ja mahtude jaotus. 2. Uue korpuse koostamine koosneb kahest poolest: a) tekstide lindistamine b) tekstide litereerimine ja märgendamine ning taustakirjalduste koostamine. 3. Varasemad korpuse osad on analooglindistused. Tänapäevane töö korpusega nõuab digitaalset materjali. Seetõttu on vaja minna üle korpuse digitaalsele kogumisele ja töötlemisele. Selleks on vajalikud: a) ettevalmistavad tööd: -taustakirjelduste automaatanalüüsile üleviimine (korrastamine, automaatanalüüsi programmi tegemine) - eestikeelne juhend transkribeerimisprogrammi CLAN jaoks - võrgus oleva juhendmaterjali korrastamine ja väljatöötamine b) varasema materjali digitaliseerimine. 4. Praegune korpus on peaaegu eranditult kõneldud tesktide korpus. Viimastel aastatel on maailmas üle mindud suures osas keele ja mitteverbaalse suhtluse koosuurimisele (multimodaalsus). Selleks on vajalikud videolindistused. Eesmärgiks on teha osa uusi lindistusi videoformaadis (klassidialoogid). 5. Korpuse pidev koostamine nõuab eraldi administraatori tööd, kes juhiks materjalide liikumist ja dokumenteerimist, suhtleks materjalide kasutajatega ja korpuse koostajatega. 6. Korpuse ja selle põhjal tehtud töid on vaja pidevalt tutvustada nii eesti kui rahvusvahelisele uurijaskonnale. Selleks on vajalik osalemine konverentsidel ja artiklite kirjutamine erinevatesee väljaannetesse. 7. Korpuse tegemine nõuab tehnikat (videokaamerad, magnetofonid, diktofonid, CD ja DVD toorikud jms) ja programme, mille abil materjali töödelda ja koprusest otsida. Osa neist on saadaval internetis vabavarana, osa tuleb osta, osa teha koostöös teiste projektidega. Projektis osalevad Tartu ülikooli suulise keele ja suhtluse uurijad: Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Andriela Rääbis, Krista Strandson. Projekt on seotud ka nende doktoritööde materjalidega. Lisaks aitavad projekti jaoks kaasa Tartu ülikooli suulise kõnega seotud loengute kuulajad-üliõpilased, kes lindistavad ja litereerivad.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit HennostedoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Eesti keele osakond; Teadur (1.00);EST / ENG01.01.2006−31.12.2007

Põhitäitjad (4)

IsikKraadTöökoht ja ametCVOsalemise periood
Olga Gerassimenkomagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Keeleteaduse ja -tehnoloogia doktorikool; erakorraline teadur (0.50); Tartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; arvutilingvistika teadur (0.50);EST / ENG01.01.2006−31.12.2008
Riina KasterpaluTartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; (0.50);EST / ENG01.01.2006−31.12.2008
Krista MihkelsdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; erakorraline teadur (0.50);EST / ENG01.01.2006−31.12.2008
Andriela RääbisdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; erakorraline teadur (1.00); Tartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; arvutilingvistika teadur (0.50); Tartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond, Üldkeeleteaduse õppetool; arvutilingvistika teadur;EST / ENG01.01.2006−31.12.2008
Publikatsioonid
Publikatsioonid
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2007). Kliendi soovide automaatne tuvastamine eestikeelsetes infodialoogides. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (135−154).. Tallinn: Eesti Keele Sihtasutus.
Gerassimenko, O.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Achieving Goals in Collaboration: Analysis of Estonian Institutional Calls. Proceedings: 16th Nordic Conference of Computational Linguistics NODALIDA-2007; 25.-26.05.2007; Tartu, Estonia. Ed. Nivre, J.; Kaalep, H.-J.; Muischnek, K.; Koit, M. Tartu: University of Tartu, 59−66.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Initial Requests in Institutional Calls: Corpus Study. International Conference Recent Advances in Natural Language Processing. Proceedings: Recent Advances in Natural Language Processing, 27.-29.09.2007 Borovets, Bulgaaria. Ed. G. Angelova, K. Bontceva, R. Mitkov, N. Nicolov, N. Nikolov. Shoumen, 230−234.
Kasterpalu, R.; Gerassimenko, O.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Customers' direct and indirect requests in Estonian institutional calls: corpus analysis. Abstracts: 10th International Pragmatics Conference; Göteborg, Sweden; 8-13 July 2007. Göteborg, 352−353.
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2007). Razmečennõi dialogovõj korpus i modelirovanie dialoga: obzor Estonstogo Dialogovoga Korpusa EDiK. Dokladõ meždunarodnoj naučnoj konferencii: Megaling´ 2007. Gorizontõ prikladnoj lingvistiki i lingvističeskih tehnologij; 23-29.09.2007; Ukraina, Krõm, Partenit. Toim. Shirokov, V.A.; Dikareva, S.S. Simferopol: Simferopol: Publishing house DIP, 116−117.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2007). Recognition of yes/no questions: analysis of the Estonian Dialogue Corpus. The Third Baltic Conference on Human Language Technologies 2007: Human Language Technologies 2007; Kaunas; October 4-5, 2007. Kaunas, 23−24.
Hennoste, T. (2008). Sõnakatkestusega algavate lausesisese reformuleerimise tüübid eestikeelses vestluses. Metslang, H.; Grünthal, R. (Toim.). Lähivertailuja (31−53).. Helsingi, Soome: Suomalais-Ugrilaisen Seura. (Uralica Helsingiensia; 1).
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2008). Annotated Dialogue Corpus as a Language Resource: An Overview of the Estonian Dialogue Corpus. Prikladna lingvistika ta lingvistichni tehnologii: Megaling 2007, Ukraina, september 2007. Ed. Shirokov, V. Kiiev: Dovira, 102−110.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). From Human Communication to Intelligent User Interfaces: Corpora of Spoken Estonian. Proceedings of the LREC-2008 (CD): 6th International Conference on Language Resources and Evaluation; Marrakech; 28-30 May 2008. Ed. Calzollari, N.; Chouki, K.; Mangaard, B.; Mariani, J.; Ojdik, J.; Piperidis, S.; Tapias, D. Morocco: ELRA, 1−8.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). Intelligentsed kasutajaliidesed ja suulise eesti keele korpus. Keeleteaduse ainestikud ja andmekogude kasutamine. Teesid: VII rakenduslingvistika kevadkonverents Keeleteaduse ainestikud ja andmekogude kasutamine 24.-25. aprill 2008 Tallinn. 13.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M. (2006). Cue-based interpretation of customer's requests: Analysis of Estonian dialogue corpus. Advances in Natural Language Processing, Proceedings, 206−213.
Koit, M.; Valdisoo, M.; Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of Requests in Estonian Institutional Dialogues: Corpus Analysis. Text, Speech and Dialogue, Proceedings, 621−628.
Hennoste, T. (2006). Et-komplementlause peaverbide funktsioonid eestikeelses vestluses 2: mõtlema. A. Kaivapalu & K. Pruuli (Toim.). Lähivertailuja 17 (119−134).. Jyväskylä, Soome: Jyväskylan yliopisto. (Jyväskylä Studies in Humanities ; 53).
Koit, M.; Valdisoo, M.; Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of customer´s requests: analysis of Estonian dialogue corpus. 11th International Conference Speech and Computer (SPECOM); St. Petersburg, Russia; 25.-29.06.2006. St. Petersburg: Anatolya Publishers, 193−198.
Gerassimenko, O.; Hennoste, T.; Koit, M.; Kasterpalu, R.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2006). Razmechennyj korpus dialogov kak resurs modelirovanija dialoga: organizacija i razmetka Estonskogo korpusa dialogov. Sovremennye informacionnye tehnologii i pis'mennoe nasledie: ot drevnih rukopisej k elektronnym tekstam. Izhevsk, 13.–17.07.2006. Izhevsk: Izdatel'stvo IzhGTU, 32−37.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2008). Developing a Dialogue System: How to Grant a Customer’s Directive? TSD 2008. Proceedings: Text, Speech and Dialogue. 11th International Conference; Brno, Czech Republic; 8-12 September 2008. Ed. Sojka, P.; Horak, A.; Kopecek, I.; Pala, K. Heidelberg: Springer, 593−600. (Lecture Notes in Computer Science; 5246).10.1007/978-3-540-87391-4_75.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). From Analysis of Human-Human Phone Calls to Intelligent User Interfaces. Proceedings of 4th International Conference on Intelligent Systems, II: 2008 4th International Conference on Intelligent Systems; Varna, Bulgaria; September 6-8, 2008. Ed. Yager, R.R.; Sgurev, V.S.; Jotsov, V.S. Sofia, Bulgaria: IEEE-Inst Electrical Electronics Engineers Inc, 10-30−10-35.
Strandson, K.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A. (2008). K vzaimodejstviju kompjutera i cheloveka na estestvennom jazyke. Kompjuternaja lingvistika i intellektual'nye tehnologii. Po materialam mezhdunarodnoj konferencii Dialog 2008: Dialoog 2008; Bekassovo, Venemaa; 4.-8.06.2008. Toim. Kibrik, A.E. (peatoim.). Moskva: RGGU (Russkij gosudarstvennyj gumanitarnyj universitet), 495−502. (7(14)).
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). Recognition of Yes/No Questions: Analysis of the Estonian Dialogue Corpus. The Third Baltic Conference on Human Language Technologies. Proceedings: The Third Baltic Conference on Human Language Technologies; Kaunas; October 4-5, 2007. Ed. Cermak, F.; Marcinkeviciene, R.; Rimkute, E.; Zabarskaite, J. Vilnius, 95−101.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2008). Towards Computer-Human Interaction in Natural Language. The 5th International Conference on Information Technology and Applications: The 5th International Conference on Information Technology and Applications; Cairns, Queensland, Australia; 23.06.-26.06.2008. 77−82.
Kasterpalu, R. (2006). Algusrituaalid müügikõnedes. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (156−169).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Rääbis, A. (2006). Infodialoogi algusrituaalid. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (143−155).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Strandson, K. (2006). Kõneleja reaktsioon vestluskaaslase algatatud parandustele. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (170−183).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Rääbis, A. (2007). Kuidas helistaja ja vastaja teineteise ära tunnevad. Emakeele Seltsi aastaraamat (125−151).. Eesti Raamat.
Rääbis, A. (2007). Võimalusi helistaja identifitseerimiseks institutsionaalses telefonisuhtluses. Metslang, H.; Langemets, Ma.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (269−284).. Tallinn: Eesti Keele Sihtasutus.
Strandson, K. (2008). How teachers and students repair each other in different classrooom contexts? Multilingualism - Applied Linguistics Approaches. Papers Selected from the Junior Research Meeting - Groningen 2007: „Applied Linguistics: a New Generation International Research Meeting for Junior Applied Linguists“; Groningen, Holland; 23.-27.01.2007. Ed. Cölfen, H.; Thije, J.; Spiegel, C. Universitetsverlag Rhein-Ruhr Duisburg (UVRR), 97−110.
Strandson, K. (2007). Kuidas ja millal õpetaja ja õpilane teineteist parandavad? Keel ja Kirjandus, 9, 714−730.
Strandson, K. (2007). Õpetaja tagasiside õpilase vastusele algkoolitunnis. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (299−319).. Tallinn: Eesti Keele Sihtasutus.
Juhendamised
Juhendamised
Riina Kasterpalu, (juh) Suulise vestluse struktuur telefoni teel peetud müügiläbirääkimiste näitel, Tartu Ülikool.
Krista Mihkels, (juh) Parandusmehhanism koolitunnis, .
Andriela Rääbis, (juh) Renate Pajusalu, Telefonivestlus eesti keeles, .
Olga Gerassimenko, (juh) Renate Pajusalu, Tagasisidepartiklid eesti ja vene keeles, .