"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-15
EKKTT06-15 "Eestikeelne infodialoog arvutiga (1.01.2006−31.12.2008)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT06-15
Eestikeelne infodialoog arvutiga
1.01.2006
31.12.2008
Riiklik programm: Eesti keele keeletehnoloogiline tugi
PerioodSumma
01.01.2006−31.12.2006350 000,00 EEK (22 369,08 EUR)
01.01.2007−31.12.2007350 000,00 EEK (22 369,08 EUR)
01.01.2008−31.12.2008550 000,00 EEK (35 151,41 EUR)
79 889,57 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Käesolev projekt on jätkuks riikliku programmi Eesti keel ja rahvuslik mälu samanimelisele keeletehnoloogiaprojektile, mis algas 2004.a ja oli kavandatud lõpptähtajaga 2008.a. Seoses arvutite levikuga omandab järjest suurema tähtsuse tarkvara, mis vahendab inimese suhtlust arvutiga loomulikus keeles, sh kõne abil. Inglise jmt keele jaoks kasutatakse arvukalt kõnedialoogsüsteeme automaatsete telefoniteenuste osutamiseks erinevates valdkondades (sh reiside kavandamine, piletite reserveerimine, ülikooliastujate nõustamine). Eesti keele jaoks selline süsteem seni puudub. Projekti eesmärgiks on tarkvara väljatöötamine, mis võimaldaks eestikeelset küsimus-vastusdialoogi arvutiga inimestevahelise suhtluse reeglite kohaselt (sh täpsustavate küsimuste esitamine, tagasiside, kultuurispetsiifilised rituaalid jms). Sellise tarkvara loomiseks vajalik keeleressurss on märgendatud dialoogikorpus. Riikliku programmi Eesti keel ja rahvuskultuur projektide Märgendatud dialoogikorpuse loomine eesti suulise kõne korpuse baasil (2002) ja Märgendatud dialoogikorpus kui eestikeelse kasutajaliidese alus (2003) alustati eesti dialoogikorpuse loomist. Töö jätkus riikliku programmi Eesti keel ja rahvuslik mälu raames alates 2004.a. Korpuse praegune maht on u 100 000 dialoogiaktide tasemel märgendatud tekstisõna. Dialoogiaktide automaatse analüüsi- ja sünteesiprogrammide väljatöötamiseks ja treenimiseks on vaja suurendada korpuse mahtu vähemalt 200 000 tekstisõnani, kusjuures korpusesse tuleb lisaks praegu olemasolevatele infotelefoni- ja reisibüroodialoogidele lülitada muud liiki suulisi infodialooge (nt bussi- või lennujaama info) ning inimese ja arvuti vahel reaalselt asetleidnud või simuleeritud dialooge. Suuliste dialoogide allikaks on eesti suulise kõne korpus; inimese ja arvuti vaheliste dialoogide kogumiseks luuakse vajalik tarkvara – veebirakendused, mis võimaldavad inimestel eesti keeles suhelda kas tegeliku või simuleeritud arvutiga (viimasel juhul nn võlur Ozi meetodil). Kohandatakse ja arendatakse varem loodud dialoogiaktide märgendusskeemi, täiendatakse dialoogiaktide märgendamise tarkvara. Uuritakse dialoogiaktide automaatse tuvastamise erinevaid meetodeid (otsustuspuud, mis kasutavad dialoogiaktide keelespetsiifilisi morfoloogilisi, süntaktilisi, semantilisi tunnuseid, ka tehisnärvivõrgud, Markovi peitmudelid jmt), et valida eesti keelele sobiv formalism. Luuakse eestikeelse infodialoogi juhtimise mudel ja koostatakse vastav programm, millega lõimitakse olemasolevad või teiste keeletehnoloogiaprojektide toel loodavad eesti keele automaatse analüüsi ja sünteesi moodulid. Selle tulemusel valmib programm – eestikeelse telefoniteenuste süsteemi prototüüp.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Mare KoitdoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia professor (1.00);EST / ENG01.01.2008−31.12.2008

Põhitäitjad (6)

IsikKraadTöökoht ja ametCVOsalemise periood
Mark FišeldoktorikraadEST / ENG01.01.2008−31.12.2008
Olga Gerassimenkomagistrikraad (teaduskraad)EST / ENG01.01.2008−31.12.2008
Riina KasterpaluEST / ENG01.01.2008−31.12.2008
Krista MihkelsdoktorikraadEST / ENG01.01.2008−31.12.2008
Andriela RääbisdoktorikraadEST / ENG01.01.2008−31.12.2008
Margus TreumuthdoktorikraadEST / ENG01.01.2008−31.12.2008

Projektiga seotud tööjõud (11)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Aleksei Ivanov0,101.01.2006−31.12.2008
Andriela Rääbisteadur0,10,501.01.2006−31.12.2008
Indrek Sell0,10,501.01.2007−31.12.2008
Krista Strandson0,10,501.01.2007−31.12.2008
Kristiina Jokinen0,10,7501.01.2006−31.12.2008
Olga Gerassimenko0,10,501.01.2006−31.12.2008
Riina Kasterpalu0,10,501.01.2006−31.12.2008
Riina Strandson0,10,501.01.2006−31.12.2008
Siiri Pärkson0,101.01.2006−31.12.2008
Taavet Kikas0,101.01.2007−31.12.2008
Tarmo Truu0,101.01.2006−31.12.2008
Publikatsioonid
Publikatsioonid
Koit, M.; Roosmaa, T.; Õim, H. (2006). Keeletehnoloogia suundumusi: Eesti kuulub Euroopasse. Keel ja Kirjandus, 12, 988−992.
Koit, M. (2006). Ratsionalism ja empirism keeletöötluses: vastasseis või koostöö? Tragel, I.; Haldur, Õ. (Toim.). Teoreetiline keeleteadus Eestis (41−54).. Tartu: Tartu Ülikool. (TÜ üldkeeleteaduse õppetooli toimetised; 7).
Koit, M.; Valdisoo, M.; Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of customer´s requests: analysis of Estonian dialogue corpus. 11th International Conference Speech and Computer (SPECOM); St. Petersburg, Russia; 25.-29.06.2006. St. Petersburg: Anatolya Publishers, 193−198.
Gerassimenko, O.; Hennoste, T.; Koit, M.; Kasterpalu, R.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2006). Razmechennyj korpus dialogov kak resurs modelirovanija dialoga: organizacija i razmetka Estonskogo korpusa dialogov. Sovremennye informacionnye tehnologii i pis'mennoe nasledie: ot drevnih rukopisej k elektronnym tekstam. Izhevsk, 13.–17.07.2006. Izhevsk: Izdatel'stvo IzhGTU, 32−37.
Koit, M.; Pajusalu, R.; Õim, H. (Toim.) (2006). Keel ja arvuti. Tartu: Tartu Ülikooli Kirjastus.
Fišel, Mark; Kikas, Taavet (2006). Dialoogiaktide automaatne tuvastamine. Keel ja arvuti, 233−245.
Gerassimenko, O.; Valdisoo, M. (2006). Loomulik infodialoog ja infodialoogi simulatsioon: infoandja strateegiad. Koit, M., Pajusalu, R., Õim, H. (Toim.). Keel ja arvuti (196−209).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Koit, M. (2006). Конверзационный агент в информационно-справочном диалоге. Труды международной конференции «Диалог 2006»: International Conference “Dialogue 2006”; Bekasovo; 31 May – 4 June, 2006. Toim. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. Moskva, 269−274.
Koit, M. (2007). Arvuti suhtluses. Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 193−209.
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2007). Kliendi soovide automaatne tuvastamine eestikeelsetes infodialoogides. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (135−154).. Tallinn: Eesti Keele Sihtasutus.
Gerassimenko, O.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Achieving Goals in Collaboration: Analysis of Estonian Institutional Calls. Proceedings: 16th Nordic Conference of Computational Linguistics NODALIDA-2007; 25.-26.05.2007; Tartu, Estonia. Ed. Nivre, J.; Kaalep, H.-J.; Muischnek, K.; Koit, M. Tartu: University of Tartu, 59−66.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Initial Requests in Institutional Calls: Corpus Study. International Conference Recent Advances in Natural Language Processing. Proceedings: Recent Advances in Natural Language Processing, 27.-29.09.2007 Borovets, Bulgaaria. Ed. G. Angelova, K. Bontceva, R. Mitkov, N. Nicolov, N. Nikolov. Shoumen, 230−234.
Kasterpalu, R.; Gerassimenko, O.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Customers' direct and indirect requests in Estonian institutional calls: corpus analysis. Abstracts: 10th International Pragmatics Conference; Göteborg, Sweden; 8-13 July 2007. Göteborg, 352−353.
Truu, T.; Õim, H.; Koit, M. (2007). Interpretation of Yes/No Questions as Metaphor Recognition. The 16th Nordic Conference of Computational Linguistics. NODALIDA 2007 PROCEEDINGS: NODALIDA 2007, Tartu, Estonia, May, 24-26, 2007. Ed. Joakim Nivre, Heiki-Jaan Kaalep, Kadri Muischnek and Mare Koit. Tartu, 398−401.
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2007). Razmečennõi dialogovõj korpus i modelirovanie dialoga: obzor Estonstogo Dialogovoga Korpusa EDiK. Dokladõ meždunarodnoj naučnoj konferencii: Megaling´ 2007. Gorizontõ prikladnoj lingvistiki i lingvističeskih tehnologij; 23-29.09.2007; Ukraina, Krõm, Partenit. Toim. Shirokov, V.A.; Dikareva, S.S. Simferopol: Simferopol: Publishing house DIP, 116−117.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2007). Recognition of yes/no questions: analysis of the Estonian Dialogue Corpus. The Third Baltic Conference on Human Language Technologies 2007: Human Language Technologies 2007; Kaunas; October 4-5, 2007. Kaunas, 23−24.
Fishel, M. (2007). Machine Learning Techniques in Dialogue Act Recognition. Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 117−134.
Fishel, M. (2007). Complex Taxonomy Dialogue Act Recognition with a Bayesian Classifier. Proceedings: DECALOG'2007 Workshop on the Semantics and Pragmatics of Dialogue; Rovereto, Italy; May 30 - June 1, 2007. 161−162.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2008). Developing a Dialogue System: How to Grant a Customer’s Directive? TSD 2008. Proceedings: Text, Speech and Dialogue. 11th International Conference; Brno, Czech Republic; 8-12 September 2008. Ed. Sojka, P.; Horak, A.; Kopecek, I.; Pala, K. Heidelberg: Springer, 593−600. (Lecture Notes in Computer Science; 5246).10.1007/978-3-540-87391-4_75.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). From Analysis of Human-Human Phone Calls to Intelligent User Interfaces. Proceedings of 4th International Conference on Intelligent Systems, II: 2008 4th International Conference on Intelligent Systems; Varna, Bulgaria; September 6-8, 2008. Ed. Yager, R.R.; Sgurev, V.S.; Jotsov, V.S. Sofia, Bulgaria: IEEE-Inst Electrical Electronics Engineers Inc, 10-30−10-35.
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2008). Annotated Dialogue Corpus as a Language Resource: An Overview of the Estonian Dialogue Corpus. Prikladna lingvistika ta lingvistichni tehnologii: Megaling 2007, Ukraina, september 2007. Ed. Shirokov, V. Kiiev: Dovira, 102−110.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). From Human Communication to Intelligent User Interfaces: Corpora of Spoken Estonian. Proceedings of the LREC-2008 (CD): 6th International Conference on Language Resources and Evaluation; Marrakech; 28-30 May 2008. Ed. Calzollari, N.; Chouki, K.; Mangaard, B.; Mariani, J.; Ojdik, J.; Piperidis, S.; Tapias, D. Morocco: ELRA, 1−8.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). Recognition of Yes/No Questions: Analysis of the Estonian Dialogue Corpus. The Third Baltic Conference on Human Language Technologies. Proceedings: The Third Baltic Conference on Human Language Technologies; Kaunas; October 4-5, 2007. Ed. Cermak, F.; Marcinkeviciene, R.; Rimkute, E.; Zabarskaite, J. Vilnius, 95−101.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2008). Towards Computer-Human Interaction in Natural Language. The 5th International Conference on Information Technology and Applications: The 5th International Conference on Information Technology and Applications; Cairns, Queensland, Australia; 23.06.-26.06.2008. 77−82.
Страндсон, К.; Герасименко, О.; Кастерпалу, Р.; Койт, М.; Ряэбис, А. (2008). К взаимодействию компьютера и человека на естественном языке. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог»: «Диалог 2008»; Бекасово; 4–8 июня 2008 г.. Toim. Кибрик, А.Е. (главный редактор); Беликов, В.И.; Добров, Б.В.; Кобозева, И.М.; Нариньяни, А.С. Moskva: Russian Academy of Sciences, 495−502. (7 (14)).
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2008). Intelligentsed kasutajaliidesed ja suulise eesti keele korpus. Keeleteaduse ainestikud ja andmekogude kasutamine. Teesid: VII rakenduslingvistika kevadkonverents Keeleteaduse ainestikud ja andmekogude kasutamine 24.-25. aprill 2008 Tallinn. 13.
Koit, M. (2008). Eestikeelne infodialoog arvutiga. Keele infoleht 14.03.2008 (2−2)..
Treumuth, M.; Jokinen, K. (2007). On the Annotation of Multimodal Corpora. Abstracts of the conference: The Third Baltic Conference on Human Language Technologies; Kaunas, Lithuania; 4-5 October 2007.
Treumuth, M. (2007). A Method for Recognizing Temporal Expressions in Estonian Natural Language Dialogue Systems. Proceedings of the 16th Nordic Conference of Computational Linguistics NODALIDA-2007: NODALIDA 2007, the 16th Nordic Conference of Computational Linguistics, Tartu, 25.-26.05.. 265−268.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M. (2006). Cue-based interpretation of customer's requests: Analysis of Estonian dialogue corpus. Advances in Natural Language Processing, Proceedings, 206−213.
Koit, M.; Valdisoo, M.; Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of Requests in Estonian Institutional Dialogues: Corpus Analysis. Text, Speech and Dialogue, Proceedings, 621−628.
Koit, M. (2006). Конверзационный агент в информационно-справочном диалоге. Труды международной конференции «Диалог 2006»: International Conference “Dialogue 2006”; Bekasovo; 31 May – 4 June, 2006. Toim. Лауфер, Н.И.; Нариньяни, А. С.; Селегея, В. П. Moskva: Nauka, 269−274.
Koit, M. (2006). Argumentation in Negotiation Dialogues: Analysis of the Estonian Dialogue Corpus. Proceedings of CMNA6: 6th Workshop on Computational Models of Natural Argument; Riva del Garda; 28-29 August 2006. Ed. Reed, C.; Grasso, F.; Kibble, R. Riva del Garda, 36−39.
Juhendamised
Juhendamised
Mark Fišel, magistrikraad, 2006, (juh) Mare Koit; Meelis Mihkla, Eesti kõneprosoodia süntees neurovõrkude abil, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool.
Anton Ragni, magistrikraad, 2007, (juh) Mare Koit, Word-based Estonian Speech Recognition, Tartu Ülikool, Füüsika-keemiateaduskond, Eksperimentaalfüüsika ja tehnoloogia instituut.
Taavet Kikas, magistrikraad (teaduskraad), 2007, (juh) Mare Koit, Dialoogiaktide tuvastamine eestikeelsetes dialoogides sufiksipuude abil, Tartu Ülikool, Matemaatika-informaatikateaduskond.
Siiri Pärkson, magistrikraad, 2007, (juh) Mare Koit, Üleküsimine, ümbersõnastamine ja mittemõistmine telefonivestlustes: eesti infodialoogide analüüs, Tartu Ülikool.
Anni Oja, (juh) Martin Ehala; Mare Koit, Eesti internetikeele ja -suhtluse analüüs portaali rate.ee keelekorpuse põhjal, Tallinna Ülikool, Eesti Keele ja Kultuuri Instituut.
Mark Fišel, (juh) Mare Koit, Unsupervised Machine Learning in Language Technology, .
Siiri Pärkson, doktorikraad, 2016, (juh) Mare Koit; Renate Pajusalu, Dialoogist dialoogsüsteemini: partneri algatatud parandused, Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut.
Margus Treumuth, (juh) Mare Koit, The Framework for Agent-Based Asynchronous Dialogue Systems, .