"Eesti Teadusfondi uurimistoetus" projekt ETF5685
ETF5685 "Konversatsiooniagendi modelleerimine: eestikeelse dialoogi automaattöötluse teoreetilised ja rakenduslikud probleemid (1.01.2004−31.12.2007)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF5685
Konversatsiooniagendi modelleerimine: eestikeelse dialoogi automaattöötluse teoreetilised ja rakenduslikud probleemid
Modelling of Conversation Agent: Theoretical and Applied Problems of Estonian Dialogue Processing
1.01.2004
31.12.2007
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT181 Kaugseire2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH670 Ameerika keeled ja kirjandus, kreoolikeeled6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2004−31.12.2004104 000,00 EEK (6 646,81 EUR)
01.01.2005−31.12.200599 294,12 EEK (6 346,05 EUR)
01.01.2006−31.12.2006101 280,00 EEK (6 472,97 EUR)
01.01.2007−31.12.2007101 280,00 EEK (6 472,97 EUR)
25 938,80 EUR
0,00

Konversatsiooniagendi all mõistetakse arvutiprogrammi, mis osaleb dialoogis inimesega võrdväärse partnerina, kusjuures suhtlus toimub loomulikus keeles (meie juhul eesti keeles) ning inimestevahelise suhtluse normide ja reeglite kohaselt. Käesoleva projekti eesmärk on töötada välja erinevatele ainevaldkondadele (ostu-müügiinfo, teejuhatamine, liiklusinfo, reisiplaneerimine jms) häälestatava konversatsiooniagendi mudel ja realiseerida see eksperimentaalse dialoogsüsteemina, mis suhtleks kasutajaga eesti keeles (tekstisisendiga ning teksti- ja kõneväljundiga). Koostatav programm peab suutma arendada kasutajaga nn loomulikku dialoogi, s.t olema võimeline analüüsima kasutaja poolt sisestatavaid eestikeelseid lauseid, vajaduse korral esitama kasutajale täpsustavaid küsimusi ja vastuseks väljastama soovitud informatsiooni, kui see leidub andmebaasis. Programmis on kavas kasutada eesti keele jaoks olemasolevaid keeletehnoloogiamooduleid (morfoloogia, süntaks, semantika, ka tekst-kõnesüntees), neid vajalikul viisil integreerides ja modifitseerides. Projekti käigus laiendatakse eestikeelset dialoogikorpust, kogudes (lisaks praegu olemasolevatele infotelefoni- ja reisibüroodialoogidele) eestikeelsete vestluste lindistusi erinevatest valdkondadest, keskendudes seejuures infoandmis- ja läbirääkimisdialoogidele. Koostatakse dialoogikorpuse automaattöötlust hõlbustav tarkvarapakett, mis võimaldab vähendada ajamahukat käsitsitööd suuliste vestluste lindistuste litereerimisel ja märgendamisel, samuti teha mitmesugust statistikat korpuse tekstide kohta, mille alusel korpust teiste keelte dialoogikorpustega võrrelda. Dialoogikorpuses märgendatakse kõneaktid, eelnevalt koostatud aktitüpoloogiat kohandades ja laiendades. Analüüsitakse erinevate kõneaktitüüpide vormilist väljendamist eestikeelses suulises suhtluses.
Conversation agent is a software package which can interact with a human in a natural language (Estonian in our case) using the norms and rules of human-human communication. The aim of this project is to work out a model of conversation agent which can be tuned to various subject domains (bying-selling, providing, traffic information, guiding, travel planning etc.) and to implement it as an experimental dialogue system which interacts with a user in Estonian (with text input, text and/or speech output). The programme must be able to interact with a user in a natural way, i.e. to analyze user utterances, to ask additional questions and to give the needed information if it exists in a data base. The program will use the existing language technology modules of Estonian (morphology, syntax, semantics, text-to-speech synthesis) which will be integrated and modified. The Estonian dialogue corpus will be extended by adding the recordings of spoken human-human conversations from various fields, first of all, information and collaboration dialogues. A software package will be created for automatic processing of the dialogue corpus which will simplify the transcription and annotation process of spoken dialogues, make possible to calculate some statistics and to compaire Estonian dialogue corpus with other dialogue corpora. Speech acts will be annotated in the dialogue corpus. The existing speech act typology will be used and modified in the needed way. Linguistic realization of different speech act types in Estonian spoken dialogues will be analyzed.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Mare Koitdoktorikraadkeeletehnoloogia professorEST / ENG01.01.2004−31.12.2007

Põhitäitjad (17)

IsikKraadTöökoht ja ametCVOsalemise periood
Liina Eskormagistrikraad (teaduskraad)erakorraline teadurEST / ENG01.01.2004−31.12.2007
Mark FišeldoktorikraadTartu Ülikool, Filosoofiateaduskond, Filosoofiateaduskonna dekanaat, erakorraline teadur (0,15)EST / ENG01.01.2007−31.12.2007
Olga Gerassimenkomagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond, Üldkeeleteaduse õppetool, arvutilingvistika teadur (0,50)EST / ENG01.01.2004−31.12.2007
Tiit HennostedoktorikraadEST / ENG01.01.2004−31.12.2004
Aleksei IvanovEST / ENG01.01.2005−31.12.2007
Riina KasterpaluspetsialistEST / ENG01.01.2005−31.12.2007
Taavet Kikasmagistrikraad (teaduskraad)EST / ENG01.01.2006−31.12.2007
Krista Mihkelsdoktorikraaderakorraline teadurEST / ENG01.01.2005−31.12.2007
Helen Nigolmagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Keeleteaduse ja -tehnoloogia doktorikool, erakorraline teadurEST / ENG01.01.2005−31.12.2007
Anton RagnimagistrikraadEST / ENG23.10.2007−31.12.2007
Tiit Roosmaadoktorikraadkeeletehnoloogia dotsentEST / ENG01.01.2004−31.12.2007
Andriela RääbisdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, erakorraline teadur (1,00)EST / ENG01.01.2004−31.12.2007
Margus Treumuthdoktorikraaderakorraline teadurEST / ENG01.01.2004−31.12.2007
Tarmo TruuEST / ENG01.01.2005−31.12.2007
Maret ValdisooEST / ENG01.01.2004−31.12.2007
Evely Vuttmagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Filosoofiateaduskonna dekanaat, erakorraline teadur (0,15)EST / ENG01.01.2007−30.06.2007
Haldur Õimdoktorikraadüldkeeleteaduse professorEST / ENG01.01.2004−31.12.2007
Publikatsioonid
Publikatsioonid
Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2007). Kliendi soovide automaatne tuvastamine eestikeelsetes infodialoogides. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (135−154).. Tallinn: Eesti Keele Sihtasutus.
Gerassimenko, O.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Achieving Goals in Collaboration: Analysis of Estonian Institutional Calls. Proceedings: 16th Nordic Conference of Computational Linguistics NODALIDA-2007; 25.-26.05.2007; Tartu, Estonia. Ed. Nivre, J.; Kaalep, H.-J.; Muischnek, K.; Koit, M. Tartu: University of Tartu, 59−66.
Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2007). Initial Requests in Institutional Calls: Corpus Study. International Conference Recent Advances in Natural Language Processing. Proceedings: Recent Advances in Natural Language Processing, 27.-29.09.2007 Borovets, Bulgaaria. Ed. G. Angelova, K. Bontceva, R. Mitkov, N. Nicolov, N. Nikolov. Shoumen, 230−234.
Koit, M. (2007). Arvuti suhtluses. Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 193−209.
Koit, M. (2007). Collaboration and Antagonism in Estonian Spoken Dialogues: Corpus Analysis. CMNA VII - Computational Models of Natural Argument: IJCAI-07 (International Joint Conference on Artificial Intelligence), workshop; Hyderabad; January 6-12, 2007. Ed. Reed, C.; Grasso, F.; Kibble, R. Hyderabad, 31−34.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M. (2006). Cue-based interpretation of customer's requests: Analysis of Estonian dialogue corpus. Advances in Natural Language Processing, Proceedings, 206−213.
Koit, M.; Valdisoo, M.; Gerassimenko, O.; Hennoste, T.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of Requests in Estonian Institutional Dialogues: Corpus Analysis. Text, Speech and Dialogue, Proceedings, 621−628.
Kasterpalu, R. (2006). Algusrituaalid müügikõnedes. M. Koit, R. Pajusalu, H. Õim (Toim.). Keel ja arvuti (156−169).. Tartu: TÜ Kirjastus. (Tartu ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Treumuth, M. (2006). Dialoogsüsteemid - kuupäevade tuvastamine ja vastusemallid. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (210−220).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Rääbis, A. (2006). Infodialoogi algusrituaalid. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (143−155).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Strandson, K. (2006). Kõneleja reaktsioon vestluskaaslase algatatud parandustele. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (170−183).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Gerassimenko, O.; Valdisoo, M. (2006). Loomulik infodialoog ja infodialoogi simulatsioon: infoandja strateegiad. Koit, M., Pajusalu, R., Õim, H. (Toim.). Keel ja arvuti (196−209).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Koit, M. (2006). Argumentation in Negotiation Dialogues: Analysis of the Estonian Dialogue Corpus. Proceedings of CMNA6: 6th Workshop on Computational Models of Natural Argument; Riva del Garda; 28-29 August 2006. Ed. Reed, C.; Grasso, F.; Kibble, R. Riva del Garda, 36−39.
Koit, M.; Valdisoo, M.; Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2006). Processing of customer´s requests: analysis of Estonian dialogue corpus. 11th International Conference Speech and Computer (SPECOM); St. Petersburg, Russia; 25.-29.06.2006. St. Petersburg: Anatolya Publishers, 193−198.
Gerassimenko, O.; Hennoste, T.; Koit, M.; Kasterpalu, R.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2006). Razmechennyj korpus dialogov kak resurs modelirovanija dialoga: organizacija i razmetka Estonskogo korpusa dialogov. Sovremennye informacionnye tehnologii i pis'mennoe nasledie: ot drevnih rukopisej k elektronnym tekstam. Izhevsk, 13.–17.07.2006. Izhevsk: Izdatel'stvo IzhGTU, 32−37.
Koit, M. (2006). Конверзационный агент в информационно-справочном диалоге. Труды международной конференции «Диалог 2006»: International Conference “Dialogue 2006”; Bekasovo; 31 May – 4 June, 2006. Toim. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. Moskva, 269−274.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Raabis, A.; Strandson, K.; Valdisoo, M. (2005). Questions in Estonian information dialogues: Form and functions. Text, Speech and Dialogue, Proceedings, 3658, 420−427.
Õim, Haldur; Koit, Mare (2005). Developing a Dialogue System that Interacts with a User in Estonian. In: Arppe, Carlson, Heinamäki, Linden, Miestamo, Piitulainen, Tupakka, Westerlund, Yli-Jyrä et al. (Ed.). A Finnish Computer Linguist: Kimmo Koskenniemi. Festschrift on the 60th birthday (278−288).. Center for the Study of Language and Information. (CSLI Publications).
Koit, M. (2005). Argumentation in Institutional Dialogues: Corpus Analysis. IJCAI-05 Workshop on Computational Models of Natural Argument. Working Notes: IJCAI-05 Workshop on Computational Models of Natural Argument; Edinburgh; 30 July 2005. Ed. Reed, C. Edinburgh, 80−83.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M. (2005). Information-sharing and correction in Estonian information dialogues: corpus analysis. 2nd Baltic Conference on Human Language Technologies; Tallinn, Estonia; 04.-05.04.2005. Tallinn: Institute of Cybernetics, 249−254.
Rääbis, A.; Hennoste, T.; Koit, M.; Truu, T.; Gerassimenko, O.; Valdisoo, M.; Kasterpalu, R.; Strandson, K. (2005). Miscommunication in Spoken Dialogues and its Modelling in a Dialogue System. 10th International Workshop on Speech and Computer (SPECOM 2005); St. Petersburg, Russia; 17.-19.10.2005. Patras, Greece: University of Patras, 413−416.
Koit, Mare (2005). Вопросно-ответные стратегии эстонских информационно-справочных диалогах. Proceedings of Dialog-2005 International Conference Computational linguistics and intellectual technologies: Звенигород, 1-6 июня, 2005. Toim. И.М. Кобозева; А.С. Нариньяни; В.П. Селегея. Moskva: Nauka, 267−271.
Gerassimenko, O.; Hennoste, T.; Koit, M.; Rääbis, A.; Strandson, K.; Valdisoo, M.; Vutt, E. (2004). Annotated Dialogue Corpus as a Language Resource: An Experience of Building the Estonian Dialogue Corpus. The Baltic Perspective: 1st Baltic Conference Human Language Technologies; Riga, Latvia; 21.-22.04.2004. Riga, Latvia, 150−155.
Hennoste, T.; Koit, M.; Rääbis, A.; Valdisoo, M. (2004). Developing a Dialogue Act Coding Scheme: An Experience of Annotating the Estonian Dialogue Corpus. 4th International Conference on Language Resources and Evaluation (LREC 2004); Lisboa, Portugal; 24.05.2004. Ed. Oostdijk, N.; Kristoffersen, G.; Sampson, G. Lisboa, Portugal, 40−47.
Gerassimenko, O.; Hennoste, T.; Koit, M.; Rääbis, A. (2004). Other-initiated Self-Repairs in Estonian Information Dialogues: Solving Communication Problems in Cooperation. 5th SIGdial Workshop on Discourse and Dialogue; Cambridge, UK; 30.04.-01.05.2004. Ed. Strube, M.; Sidner, C. Cambridge, 39−42.
Койт, М. (2004). Коммуникативные акты и коммуникативные стратегии: анализ эстонского корпуса диалогов. Proceedings of Dialog-2004, International Conference Computational linguistics and intellectual technologies. Moskva: Nauka, 329−334.
Gerassimenko, O.; Kasterpalu, R. (2006). Vastus jah - kas seda on vaja eraldi õpetada? Eesti jah ja vene da - funktsionaalsed erinevused telefonivestluste näitel. Eesti Rakenduslingvistika Ühingu aastaraamat (25−42).. Tallinn: Eesti Keele Sihtasutus.
Kasterpalu, R.; Gerassimenko, O. (2006). Vestlusanalüüs. Tragel, I; Õim, H. (Toim.). Teoreetiline keeleteadus Eestis II (112−126).. Tartu: Tartu Ülikool. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 7).
Strandson, K. (2007). Kuidas ja millal õpetaja ja õpilane teineteist parandavad? Keel ja Kirjandus, 9, 714−730.
Strandson, K. (2007). Õpetaja tagasiside õpilase vastusele algkoolitunnis. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (299−319).. Tallinn: Eesti Keele Sihtasutus.
Rääbis, A. (2007). Kuidas helistaja ja vastaja teineteise ära tunnevad. Emakeele Seltsi aastaraamat (125−151).. Eesti Raamat.
Rääbis, A. (2007). Võimalusi helistaja identifitseerimiseks institutsionaalses telefonisuhtluses. Metslang, H.; Langemets, Ma.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (269−284).. Tallinn: Eesti Keele Sihtasutus.
Treumuth, M. (2005). A software tool for the Estonian Dialogue Corpus. Proceedings of the International Conference The Second Baltic Conference on Human Language Technologies. Tallinn, 341−346.
Eskor, Liina (2007). Suhtlusstrateegiad ja -taktikad müügivestlustes. Eesti Rakenduslingvistika Ühingu aastaraamat (83−97).. Eesti Keele Sihtasutus.
Eskor, Liina (2005). Dialoogiaktid ja suhtlusstrateegiad: eesti dialoogikorpuse analüüs. Keel ja Kirjandus, 9, 711−727.
Fishel, M. (2007). Machine Learning Techniques in Dialogue Act Recognition. Eesti Rakenduslingvistika Ühingu aastaraamat, 3, 117−134.
Fishel, M. (2005). Dialogue Act Recognition in Estonian Dialogues using Artificial Neural Networks. Proceedings of the International Conference: The Second Baltic Conference on Human Language Technologies; 4-5 April, 2005; Tallinn, Estonia. Ed. Langemets, M.; Penjam, P. Tallinn: Eesti Keele Instituut, 231−235.
Fišel, Mark; Kikas, Taavet (2006). Dialoogiaktide automaatne tuvastamine. Keel ja arvuti, 233−245.
Hennoste, T.; Rääbis, A. (2004). Dialoogiaktid eesti infodialoogides: tüpoloogia ja analüüs. Tartu: Tartu Ülikooli Kirjastus.
Juhendamised
Juhendamised
Taavet Kikas, magistrikraad (teaduskraad), 2007, (juh) Mare Koit, Dialoogiaktide tuvastamine eestikeelsetes dialoogides sufiksipuude abil, Tartu Ülikool, Matemaatika-informaatikateaduskond.
Anton Ragni, magistrikraad, 2007, (juh) Mare Koit, Word-based Estonian Speech Recognition, Tartu Ülikool, Füüsika-keemiateaduskond, Eksperimentaalfüüsika ja tehnoloogia instituut.
Mark Fišel, magistrikraad, 2006, (juh) Mare Koit; Meelis Mihkla, Eesti kõneprosoodia süntees neurovõrkude abil, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool.
Liina Eskor, magistrikraad (teaduskraad), 2004, (juh) Mare Koit, Dialoogiaktid ja suhtlusstrateegiad: eesti dialoogikorpuse analüüs, Tartu Ülikool, Filosoofiateaduskond.
Margus Treumuth, magistrikraad (teaduskraad), 2004, (juh) Mare Koit, Eesti dialoogikorpus ja selle töötlemise tarkvara, Tartu Ülikool, Matemaatika-informaatikateaduskond.
Olga Gerassimenko, magistrikraad (teaduskraad), 2005, (juh) Leelo Keevallik; Tiit Hennoste, Information treatment particles ahah/аха, jah/да, mhmh/мхмх and nii/так in Estonian and Russian phone calls, Tartu Ülikool, Filosoofiateaduskond.
Helen Nigol, magistrikraad (teaduskraad), 2006, (juh) Heli Uibo, Voorusisesed parandused, kordused ja valestardid suulises eesti keeles: nende tuvastamine ja normaliseerimine, Tartu Ülikool.