"Eesti Teadusfondi uurimistoetus" projekt ETF5685
ETF5685 "Konversatsiooniagendi modelleerimine: eestikeelse dialoogi automaattöötluse teoreetilised ja rakenduslikud probleemid (1.01.2004−31.12.2007)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF5685
Konversatsiooniagendi modelleerimine: eestikeelse dialoogi automaattöötluse teoreetilised ja rakenduslikud probleemid
Modelling of Conversation Agent: Theoretical and Applied Problems of Estonian Dialogue Processing
1.01.2004
31.12.2007
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT181 Kaugseire2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH670 Ameerika keeled ja kirjandus, kreoolikeeled6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2004−31.12.2004104 000,00 EEK (6 646,81 EUR)
01.01.2005−31.12.200599 294,12 EEK (6 346,05 EUR)
01.01.2006−31.12.2006101 280,00 EEK (6 472,97 EUR)
01.01.2007−31.12.2007101 280,00 EEK (6 472,97 EUR)
25 938,80 EUR

Konversatsiooniagendi all mõistetakse arvutiprogrammi, mis osaleb dialoogis inimesega võrdväärse partnerina, kusjuures suhtlus toimub loomulikus keeles (meie juhul eesti keeles) ning inimestevahelise suhtluse normide ja reeglite kohaselt. Käesoleva projekti eesmärk on töötada välja erinevatele ainevaldkondadele (ostu-müügiinfo, teejuhatamine, liiklusinfo, reisiplaneerimine jms) häälestatava konversatsiooniagendi mudel ja realiseerida see eksperimentaalse dialoogsüsteemina, mis suhtleks kasutajaga eesti keeles (tekstisisendiga ning teksti- ja kõneväljundiga). Koostatav programm peab suutma arendada kasutajaga nn loomulikku dialoogi, s.t olema võimeline analüüsima kasutaja poolt sisestatavaid eestikeelseid lauseid, vajaduse korral esitama kasutajale täpsustavaid küsimusi ja vastuseks väljastama soovitud informatsiooni, kui see leidub andmebaasis. Programmis on kavas kasutada eesti keele jaoks olemasolevaid keeletehnoloogiamooduleid (morfoloogia, süntaks, semantika, ka tekst-kõnesüntees), neid vajalikul viisil integreerides ja modifitseerides. Projekti käigus laiendatakse eestikeelset dialoogikorpust, kogudes (lisaks praegu olemasolevatele infotelefoni- ja reisibüroodialoogidele) eestikeelsete vestluste lindistusi erinevatest valdkondadest, keskendudes seejuures infoandmis- ja läbirääkimisdialoogidele. Koostatakse dialoogikorpuse automaattöötlust hõlbustav tarkvarapakett, mis võimaldab vähendada ajamahukat käsitsitööd suuliste vestluste lindistuste litereerimisel ja märgendamisel, samuti teha mitmesugust statistikat korpuse tekstide kohta, mille alusel korpust teiste keelte dialoogikorpustega võrrelda. Dialoogikorpuses märgendatakse kõneaktid, eelnevalt koostatud aktitüpoloogiat kohandades ja laiendades. Analüüsitakse erinevate kõneaktitüüpide vormilist väljendamist eestikeelses suulises suhtluses.
Conversation agent is a software package which can interact with a human in a natural language (Estonian in our case) using the norms and rules of human-human communication. The aim of this project is to work out a model of conversation agent which can be tuned to various subject domains (bying-selling, providing, traffic information, guiding, travel planning etc.) and to implement it as an experimental dialogue system which interacts with a user in Estonian (with text input, text and/or speech output). The programme must be able to interact with a user in a natural way, i.e. to analyze user utterances, to ask additional questions and to give the needed information if it exists in a data base. The program will use the existing language technology modules of Estonian (morphology, syntax, semantics, text-to-speech synthesis) which will be integrated and modified. The Estonian dialogue corpus will be extended by adding the recordings of spoken human-human conversations from various fields, first of all, information and collaboration dialogues. A software package will be created for automatic processing of the dialogue corpus which will simplify the transcription and annotation process of spoken dialogues, make possible to calculate some statistics and to compaire Estonian dialogue corpus with other dialogue corpora. Speech acts will be annotated in the dialogue corpus. The existing speech act typology will be used and modified in the needed way. Linguistic realization of different speech act types in Estonian spoken dialogues will be analyzed.