"Eesti Teadusfondi uurimistoetus" projekt ETF9124
ETF9124 "Suhtlusagendi modelleerimine ja Eesti dialoogikorpus (1.01.2012−31.12.2014)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF9124
Suhtlusagendi modelleerimine ja Eesti dialoogikorpus
Modelling of conversational agent and Estonian dialogue corpus
1.01.2012
31.12.2014
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2012−31.12.20128 496,00 EUR
01.01.2013−31.12.20138 496,00 EUR
01.01.2014−31.12.20148 496,00 EUR
25 488,00 EUR

Antud projekti eesmärk on välja töötada suhtlusagendi formaalne mudel, mis võimaldaks esitada eestikeelset dialoogi inimese ja suhtlusagendi vahel kui pidevalt ajakohastatavate infoseisundite järjendit, mille määravad lisaks lausungitele ja nendes väljendatud suhtlusaktidele ka osalejate arvamused, soovid ja eesmärgid ning suhtluseesmärkide saavutamise meetodid ehk strateegiad. Strateegia valik ja rakendamine sõltub tema oodatavast edukusest suhtluseesmärgi saavutamisel, mida omakorda saab prognoosida varem analoogilistes olukordades toimunud dialoogide alusel. Mudelis ühendatakse dialoogi automaattöötluse reeglipõhised ja andmepõhised meetodid ning arendatakse sellega edasi varasemates projektides loodud mudelit, milles rakendati tehisintellektist tuntud planeerimistehnikaid. Mudel realiseeritakse eksperimentaalse dialoogsüsteemina, mis suhtleb kasutajaga eesti keeles. Dialoogsüsteemis lõimitakse mõned olemasolevad eesti keele automaatse analüüsi ja sünteesi vahendid. Arendatava dialoogimudeli treenimiseks ja testimiseks kasutatakse Eesti dialoogikorpust. Projekti käigus laiendatakse korpust, kogudes sellesse inimestevaheliste eestikeelsete vestluste lindistusi ja eestikeelseid dialooge nii varem loodud dialoogsüsteemidega kui ka projekti käigus arendatava süsteemiga, samuti võrdlusmaterjalina venekeelseid dialooge. Selleks, et oleks võimalik suhtlusstrateegiate automaatne õppimine, märgendatakse korpuses dialoogiaktid, kasutades eelnevalt loodud aktitüpoloogiat ja märgendustarkvara, mida arendatakse vastavalt vajadusele.
The aim of this project is to work out a formal model of conversational agent, enabling to represent dialogue between human user and the agent in Estonian as a sequence of dynamically updated information states. Information states are determined not only by utterances and dialogue acts expressed in the utterances, but they also take into account beliefs, desires and intentions of dialogue participants and methods of achieving their communicative goals, or strategies. Choice and implementation of a strategy depends on its expected success to achieve a certain communicative goal. The success can be predicted using machine learning on dialogues which have taken place in similar situations. The model will integrate rule-based and data-based methods of dialogue processing. In this way, it will extend a former model where planning techniques known from the Artificial Intelligence were used. The model will be implemented as an experimental dialogue system which interacts with a user in Estonian. Existing modules of analysis and generation of Estonian will be integrated into the system. Estonian dialogue corpus will be used in order to train and test the model. The corpus will be extended, human-human conversations in Estonian and interactions between human user and dialogue systems (former and current) will be added into the corpus. Russian dialogues will be collected and analysed for comparison. Dialogue acts will be annotated in the corpus, in order to make it possible to learn strategies automatically from the corpus. Existing typology of Estonian dialogue acts and annotation tools will be used and developed.
Analüüsiti konversatsiooniagentides kasutatud arhitektuure (regulaaravaldistele, freimidele ja planeerimisele põhinev ning infoseisundeid kasutav). Töötati välja infoseisundi esitus, mis kaasab mõisted, mida siiani on kasutatud planeerimisele põhinevas arhitektuuris: ühendati agendi arvamused, soovid ja eesmärgid arutlusmudeli ja suhtlusstrateegiaga. Infoseisundid integreeriti konversatsiooniagendi mudelisse. Laiendati Eesti dialoogikorpust: salvestati ja litereeriti inimestevahelisi suulisi läbirääkimisdialooge (44 dialoogi), kus märgendati dialoogiaktid Eesti dialoogiaktide tüpoloogia alusel. Kahe varem loodud veebipõhise liidese abil koguti ja lisati korpusesse 240 uut kirjalikku simuleeritud dialoogi, kus arvuti rolli täidab kasutaja teadmata teine inimene. Arendati edasi veebipõhist tarkvara eestikeelsetes dialoogides dialoogiaktide poolautomaatseks ning dialoogi lineaarse ja hierarhilise struktuuri ning suhtlusstrateegiate automaatseks märgendamiseks. Seda tarkvara kasutades märgendati dialoogide struktuur ja suhtlusstrateegiad Eesti dialoogikorpuse suulistes inimestevahelistes infodialoogides ning kolme erinevat liiki läbirääkimisdialoogides (müügivestlused, reisibüroodialoogid ja argumenteerimist sisaldavad argivestlused). Analüüsiti ja võrreldi suhtlusstrateegiate kasutamist erinevat liiki dialoogides. Konversatsiooniagendi formaalset mudelit rakendati läbirääkimistele. Selleks lisati mudelisse argumendi formaalne mudel, mille koosseisu kuuluvad eeldused ja väide. Analüüsiti argumentide keelelist esitust ja vastavaid dialoogiakte kolmes Eesti dialoogikorpuse alamkorpuses. Analüüsiti argumendistruktuuri ja selle automaatse tuvastamise võimalusi müügivestlustes. Loodi eksperimentaalne dialoogsüsteem – konversatsiooniagent, mis argumenteerimisdialoogis suhtleb kasutajaga eesti keeles.