"Riiklik programm: Eesti keeletehnoloogia" projekt EKT5
EKT5 "Eestikeelse dialoogi pragmaatika analüsaator (1.01.2011−31.12.2013)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT5
Eestikeelse dialoogi pragmaatika analüsaator
1.01.2011
31.12.2013
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2011−31.12.201128 000,00 EUR
01.01.2012−31.12.201223 000,00 EUR
01.01.2013−31.12.201318 000,00 EUR
69 000,00 EUR

Taotletava projekti tulemusel valmib tarkvaraprototüüp järgmiste riiklikus programmis püstitatud ülesannete lahendamiseks: o Pragmaatiline analüüs (teatud valdkondades) o Seotud teksti (dialoogi) struktuuri automaatne tuvastamine, dialoogi struktuur (eraldi suuline ja kirjalik, nt interneti-dialoog) o Dialoogiaktide automaatne tuvastamine o Dialoogistrateegiate automaatne tuvastamine Lisaks sellele arendab projekt ühte keeleressurssi – Eesti dialoogikorpust – tarkvara loomiseks vajalikus ulatuses. Maailmas on loodud hulgaliselt dialoogsüsteeme, millega kasutaja saab suhelda loomulikus keeles, teksti või kõne vahendusel (ajakohast ülevaadet vt nt Jokinen, McTear 2009). Enamasti on selleks keeleks olnud inglise keel ja rakendusvaldkond piiratud kindla ülesande lahendamisega (nt nime järgi telefoninumbri valimine, info ilma-, liiklusolude vms kohta, piletite broneerimine jne). See, et arvuti suudab tuvastada kasutaja kõnet (teisendada helisignaal tekstiks) ja sünteesida tehiskõnet (teisendada antud tekst helisignaaliks), ei taga veel suhtlust. Lisaks kõnetuvastusele ja –sünteesile on oluline, et arvuti oskaks kõnetuvastuse tulemusel saadud teksti analüüsida ja kasutajale väljastatavat vastusteksti sünteesida – tunneks kasutaja tekstis ära tervituse, küsimuse või mõne muu dialoogiakti, suudaks leida kasutajale vajalikku informatsiooni ning moodustada lause(d), millega seda informatsiooni kasutajale väljastada. Dialoogsüsteem peab edukaks toimimiseks olema suuteline läbi viima teksti analüüsi, probleemilahenduse ja teksti sünteesi. Eesti keele jaoks on olemas või arendamisel mitmed teksti automaattöötluse vahendid: morfoloogiline analüüs ja süntees, lause süntaktiline ja semantiline analüüs. Seni on üksnes vähesel määral tegeldud eestikeelse seotud teksti pragmaatilise analüüsi formaliseerimisega. Taotletav projekt seab eesmärgiks seotud teksti ühe liigi – eestikeelse dialoogi – automaatse pragmaatilise analüüsi. Lisaks inimesega eesti keeles suhtlevale dialoogsüsteemile leiab dialoogi pragmaatiline analüüs kasutust lingvisti töövahendina dialoogi uurimisel. Projekti käigus kavandatakse järgmiste pragmaatilise analüüsi osaülesannete lahendamine: 1. teadmuse automaatne ekstraheerimine eestikeelsest tekstist (dialoogist), 2. dialoogiaktide automaatne tuvastamine, 3. dialoogi struktuuri automaatne analüüs, 4. dialoogistrateegiate automaatne analüüs. Kahe esimese ülesande osas jätkab taotletav projekt 2010.a lõppenud projekti EKKTT09-057 Intelligentne kasutajaliides andmebaasidele, mille tulemusel töötati välja andmebaasides olevat infot vahendava intelligentse kasutajaliidese kontseptsioon ja valmis seda realiseeriv programm – asünkroonsete dialoogsüsteemide raamistik (vt ka Treumuth 2010). Raamistiku häälestamine uuele ainevaldkonnale seisneb tema ühe mooduli – teadmusbaasi – uuendamises. Raamistikku testiti kahes lihtsas ainevaldkonnas (hambaraviinfo ja kinoinfo). Testimine näitas, et uue teadmusbaasi loomine on töömahukas, mistõttu on taotletavas projektis esimese ülesandena kavandatud teadmuse automaatse ekstraheerimise meetodite uurimine ja realiseerimine, sh õppimine toimunud dialoogidest. Lõppenud projektis uuriti ja testiti ka mitmeid andmepõhiseid meetodeid dialoogiaktide tuvastamiseks eestikeelsete suuliste dialoogide transkriptsioonides, eesmärgiga koostada programm, mis võimaldaks poolautomaatselt märgendada dialoogiakte. Valmis programmi testversioon, mis aga ei ole veel piisavalt tõrkekindel ja kasutajasõbralik. Seetõttu on taotletavas projektis teise ülesandena taas püstitatud dialoogiaktide automaatne tuvastamine, et luua programm, mille saagis ja täpsus rahuldaksid praktilise rakendamise vajadusi. Taotlejale teadaolevalt puuduvad praegu rahvusvahelised standardid dialoogiaktide, dialoogi struktuuri ja dialoogistrateegiate annoteerimiseks. Dialoogiaktide tuvastamisel võetakse aluseks TÜ dialoogiaktide tüpoloogia, mida projekti käigus korrastatakse, võttes arvesse dialoogikorpuse märgendamise kogemusi. Loodavat pragmaatika analüsaatorit ja Eesti dialoogikorpust hakkab vahendama Eesti Keeleressursside Keskus. Kuna Eesti dialoogikorpus sisaldab sensitiivset materjali (suulised inimestevahelised dialoogid TÜ Eesti suulise keele korpusest, võlur Ozi meetodil kogutud dialoogid), siis on tema kättesaadavus piiratud vastavalt Eesti Keeleressursside Keskuse poolt sätestatavatele litsentsitingimustele. Võlur Ozi dialoogide kogumiseks, kus arvutit simuleerib kasutaja teadmata teine inimene, viiakse läbi (lisaks seni toimunutele) uued eksperimendid. Eksperimentide läbiviimine on kooskõlastatud TÜ inimuuringute eetika komiteega 2010. aastal; kooskõlastus kehtib kuni 31. 08. 2012. Viited Kristiina Jokinen, Michael McTear 2009. Spoken Dialogue Systems (Synthesis Lectures on Human Language Technologies). Morgan & Claypool Publihers. Margus Treumuth 2010. A Framework for Asynchronous Dialogue Systems. In: Frontiers in Artificial Intelligence and Applications: Human Language Technologies — The Baltic Perspective; Riga, Latvia; 107 - 114.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Mare KoitdoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia professor (1.00);EST / ENG01.01.2011−31.12.2012

Põhitäitjad (3)

IsikKraadTöökoht ja ametCVOsalemise periood
Sven AllermagistrikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; Assistent (0.50);EST / ENG01.01.2011−31.12.2013
Siiri PärksondoktorikraadTartu Ülikool; Doktorant (1.00);EST / ENG01.01.2011−31.12.2013
Raul SirelmagistrikraadOÜ Tarkvara Tehnoloogia Arenduskeskus; Teadur (1.00);EST / ENG01.01.2011−31.12.2013

Projektiga seotud tööjõud (17)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Andriela RääbisTartu Ülikoolteadur0,20,801.01.2011−31.12.2013
Andriela RääbisTartu Ülikoolteadur0,20,801.01.2012−31.12.2013
Andriela RääbisTartu Ülikoolteadur0,20,801.01.2013−31.12.2013
Krista MihkelsTartu Ülikoolteadur0,20,801.01.2011−31.12.2012
Krista MihkelsTartu Ülikoolteadur, doktorant0,20,801.01.2011−31.12.2013
Krista MihkelsTartu Ülikoolteadur, doktorant0,20,801.01.2012−31.12.2013
Liina Eskordoktorant0,501.01.2011−31.12.2013
Liina Eskordoktorant0,501.01.2011−31.12.2013
Margus TreumuthTartu Ülikoolkeeleressursside analüütik0,10,501.01.2011−31.12.2013
Margus TreumuthTartu Ülikoolkeeleressursside analüütik0,10,501.01.2011−31.12.2013
Margus TreumuthTartu Ülikoolkeeleressursside analüütik0,10,501.01.2012−31.12.2013
Olga GerassimenkoTartu Ülikoolteadur, doktorant0,20,801.01.2011−31.12.2013
Olga GerassimenkoTartu Ülikoolteadur, doktorant0,20,801.01.2012−31.12.2013
Olga GerassimenkoTartu Ülikoolteadur, doktorant0,20,801.01.2013−31.12.2013
Riina KasterpaluTartu Ülikoolspetsialist0,40,601.01.2011−31.12.2012
Riina KasterpaluTartu Ülikoolspetsialist, doktorant0,40,601.01.2011−31.12.2013
Riina KasterpaluTartu Ülikoolspetsialist, doktorant0,40,601.01.2012−31.12.2013
Publikatsioonid
Publikatsioonid
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Mihkels, K.; Laanesoo, K.; Oja, A.; Rääbis, A. (2011). Naabruspaarid ja kategoriseerimine netikommentaarides kui sidusa dialoogi loomise vahendid. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 7 (43−58).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa7.03.
Koit, M. (2011). Automatic Recognition of Dialogue Acts in Complex Typology. Proc. of INISTA: International Symposium on INnovations in Intelligent SysTems and Applications, Istanbul, 15 - 18 June 2011. Ed. Akyokuş, S. et al. Istanbul: IEEE, 485−489.10.1109/INISTA.2011.5946122.
Koit, M. (2011). CONVERSATIONAL AGENT IN ARGUMENTATION: A Model and Evaluation on a Dialogue Corpus. ICAART 2011, 3rd International Conference on Agents and Artificial Intelligence, Proceedings, 1: 3rd International Conference on Agents and Artificial Intelligence, Rooma, 28.-30. jaanuar 2011. Ed. Joaquim Filipe and Ana Fred. SciTePress – Science and Technology Publications, 552−555.
Koit, M. (2011). Conversational Agent in Argumentation: Updating of Information States. Proceedings of the International Conference on Knowledge Engineering and Ontology Development: KEOD 2011 (International Conference on Knowledge Engineering and Ontology Development), Paris, France, 26 - 29 October, 2011. Ed. Joaquim Filipe and Jan L. G. Dietz. Paris: SciTEC Publications Ltd, 375−378.
Pool, Raili; Rääbis, Andriela; Jürgenstein, Lea (2011). Eesti suulise keele korpus keeleõppedialoogide lähtematerjalina: telefonivestluste koostamine. Lähivõrdlusi. Lähivertailuja, 21, 213−241.10.5128/LV.1736-9290.
Pool, R.; Rääbis, A. (2011). Telefonivestlused eesti keele kui teise keele õpikutes: funktsioonid ja sissejuhatuste struktuur. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 7 (157−176).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa7.10.
Treumuth, Margus (2011). A framework for asynchronous dialogue systems: concepts, issues and design aspects. (Doktoritöö, Tartu Ülikool). Tartu Ülikool: Tartu Ülikooli Kirjastus.
Pärkson, Siiri (2011). Võlur Ozi eksperimentide kogumine ja partneri algatatud paranduste analüüs. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat = Estonian Papers in Applied Linguistics (197−214).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa.1736-2563.
Koit, Mare (2012). Konversatsiooniagendi modelleerimine argumenteerimisdialoogis: suhtlus kui infoseisundite värskendamine. H. Metslang; M. Langemets; M.-M. Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat = Estonian Papers in Applied Linguistics (109−122).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.07.
Koit, Mare (2012). Towards automatic recognition of the structure of Estonian directory inquiries. Proc. of 5th Int. Conf. on Human Language Technologies: the Baltic Perspective, 247: Baltic HLT 2012, Tartu, Oct. 2012. Ed. A. Tavast, K. Muischnek, M. Koit. IOS Press, 120−128.10.3233/978-1-61499-133-5-120.
Sirel, Raul (2012). Dynamic User Interfaces for Synchronous Encoding and Linguistic Uniforming of Textual Clinical Data. Frontiers in Artificial Intelligence and Applications, 247: Human Language Technologies – The Baltic Perspective, 4.-5. Oct Tartu. Ed. Arvi Tavast, Kadri Muischnek, Mare Koit. Amsterdam: IOS Press, 206−212.
Sirel, R. (2012). Knowledge Acquisition Tool for Dialogue Systems. Frontiers in Artificial Intelligence and Applications, 247: Human Language Technologies – The Baltic Perspective, 4.-5. Oct Tartu. Ed. Arvi Tavast, Kadri Muischnek, Mare Koit. Amsterdam: IOS Press, 201−205.
Rääbis, A. (2012). Direktiivisekventsid isa ja tütre suhtluses: juhtumianalüüs. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 8 (213−230).. Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.14.
Kasterpalu, R. (2012). Preference for hearing the news: the case of the response particle jaajaa in Estonian business negotiations. Nordic Prosody XI Book of Abstracts: Nordic Prosody XI, University of Tartu, 15-17 August 2012. Ed. Eva-Liina Asu, Pärtel Lippus, Karl Pajusalu. Tartu Ülikool,.
Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep, Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur (2012). Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. Erelt, Mati; Mäearu, Sirje (Toim.). Emakeele Seltsi Aastaraamat (66−102).. Tallinn: TA Kirjastus.
Õim, Haldur; Koit, Mare (2012). Influencing Reasoning in Interaction: a Model. Proc. of SemDial 2012 (SeineDial): 16th Workshop on the Semantics and Pragmatics of Dialogue, Paris, 19-21 September 2012. Ed. Sarah Brown-Schmidt, Jonathan Ginzburg, Staffan Larsson. Paris, 159−160.
Koit, Mare (2014). (Semi-)Automatic Analysis of Dialogues. Proceedings of the 6th International Conference on Agents and Artificial Intelligence, 1: 6th International Conference on Agents and Artificial Intelligence, ESEO; Angers, Loire Valley, France; 6 - 8 March, 2014. Ed. Béatrice Duval, Jaap van den Herik, Stephane Loiseau and Joaquim Filipe. Portugal: SciTePress, 445−452.
Aller, Sven; Gerassimenko, Olga; Hennoste, Tiit; Kasterpalu, Riina; Koit, Mare; Mihkels, Krista; Laanesoo, Kirsi; Rääbis, Andriela (2014). Dialoogide pragmaatilise analüüsi tarkvara. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu Aastaraamat = Estonian Papers in Applied Linguistics (23−36).. Eesti Rakenduslingvistika Ühing.10.5128/ERYa.1736-2563.
Koit, Mare (2013). Kuidas tuvastada dialoogi struktuuri: korpuse analüüs. Eesti Rakenduslingvistika Ühingu aastaraamat, 9, 101−111.10.5128/ERYa.1736-2563.
Koit, Mare (2013). Recognizing the dialogue phases: Analysis of human-human phone calls. Proc. of 2013 IEEE International Symposium Innovations in Intelligent Systems and Applications (INISTA): 2013 IEEE International Symposium Innovations in Intelligent Systems and Applications (INISTA); Albena, Bulgaria; 19-21 June 2013,. Ed. Kiril Alexiev; Petia Koprinkova-Hristova. Institute of Electrical and Electronics Engineers (IEEE), 1−5.10.1109/INISTA.2013.6577622.
Juhendamised
Juhendamised
Siiri Pärkson, doktorikraad, 2016, (juh) Mare Koit; Renate Pajusalu, Dialoogist dialoogsüsteemini: partneri algatatud parandused, Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut.
Raul Sirel, magistrikraad, 2011, (juh) Margus Treumuth, Poolautomaatne teadmusbaaside konstrueerimine dialoogsüsteemidele, Tartu Ülikool.
Sven Aller, magistrikraad, 2012, (juh) Mare Koit, Dialoogiaktide märgendamine Eesti dialoogikorpuses: ülevaade ressurssidest ja tarkvaraarendus, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut.
Margus Treumuth, doktorikraad, 2011, (juh) Mare Koit; Päivi Kristiina Jokinen, A Framework for Asynchronous Dialogue Systems: Concepts, Issues and Design Aspects (Asünkroonsete dialoogsüsteemide raamistik: mõisted, probleemid ja kavandamise aspektid), Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut.