"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-57
EKKTT09-57 "Intelligentne kasutajaliides andmebaasidele (1.01.2009−31.12.2010)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-57
Intelligentne kasutajaliides andmebaasidele
1.01.2009
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2009−31.12.2009508 140,00 EEK (32 476,07 EUR)
01.01.2010−31.12.2010470 000,00 EEK (30 038,47 EUR)
62 514,54 EUR

Taotletav projekt on jätkuks 2008.a lõppenud projektile EKKTT06-15 Eestikeelne infodialoog arvutiga, mille tulemusel loodi veebis kasutatav küsimus-vastussüsteem, mis annab vastuseks kasutaja eestikeelsele küsimusele infot kindla ainevaldkonna kohta, tuginedes kasutaja päringus tuvastatavatele (ainevaldkonna-spetsiifilistele) võtmesõnadele ja -fraasidele. Taotletavas projektis üldistatakse saadud kogemust sellise kasutajaliidese loomiseks, mis võimaldaks hõlpsat adapteerumist erinevatele ainevaldkondadele ja seostamist erinevate andmebaasidega. Liidest saab minimaalsete täienduste tegemise teel häälestada uutele ainevaldkondadele ja siduda andmebaasidega, andes seega kasutajale võimaluse pöörduda andmebaaside poole eesti keeles ning saada vastuseks adekvaatset, tõest infot. Kasutaja sisestab oma päringu eesti keeles ja saab intelligentse kasutajaliidese vahendusel vastuse samuti eesti keeles, tekstina või soovi korral tehiskõnes. Aluseks võetakse kaks hüpoteesi (Allen jt, 2001): 1) praktilise dialoogi hüpotees, mille kohaselt praktilisteks (inimese ja arvuti vahelisteks infoandmise ja/või nõustamise) dialoogideks vajalikku kompetentsi on oluliselt lihtsam saavutada kui üldist inimestevahelise vestluse kompetentsi, ning 2) valdkonnast sõltumatuse hüpotees, mille kohaselt seisneb praktiliste dialoogide põhiline keerukus loomuliku keele mõistmises, samas kui dialoogi juhtimine on sõltumatu lahendatavast ülesandest. Erinevates ainevaldkondades leiduvad ühised minimaalsed baastunnused, mis tagavad põhilise suhtlusfunktsionaalsuse, samal ajal kui säilib ainevaldkonna-spetsiifilise info kättesaadavus ja antava info kasulikkus. Dialoogihalduris realiseeritakse infodialoogi juhtimise üldine mudel, mis võtab arvesse erinevates praktilistes infodialoogides kehtivad üldised seaduspärasused. Loodavat liidest saab kasutada ka „võlur Ozi“ režiimis (kus arvuti rolli mängib inimene), see võimaldab hõlpsal viisil koguda andmeid liidese häälestamiseks uuele ainevaldkonnale, s.t määramaks, missuguseid kasutaja lausungeid ja missuguseid dialoogiakte peaks intelligentne liides hiljem suutma käsitleda ning kuidas nendele reageerima. Sellise tarkvara loomiseks vajalik keeleressurss on märgendatud dialoogikorpus. Mitme varasema projekti raames on kogutud TÜ Eesti dialoogikorpus, millesse praegu kuulub 1) 1000 inimestevahelist telefonikõnet ametiasutustesse (infotelefon, reisibüroo jne), 2) 20 inimese ja arvuti vahelist simuleeritud dialoogi (kus ainevaldkonnaks on bussi- ja laevareisid), 3) 75 vestlust (lõppenud projektis arendatud) dialoogsüsteemiga. Inimestevahelistes vestlustes on märgendatud dialoogiaktid vastavalt TÜ dialoogiaktide tüpoloogiale. Taotletava projekti põhieesmärgi saavutamiseks laiendatakse eeskätt simuleeritud dialoogide osakaalu korpuses, sest see on lihtsaim ja kiireim viis koguda ainevaldkonna-spetsiifilist materjali uuele ainevaldkonnale üleminekul. Kogutud dialoogides märgendatakse dialoogiaktid ja analüüsitakse erinevate aktide väljendamise võimalusi eesti keeles, et tagada loodava liidese intelligentsus. Dialoogiaktide märgendamiseks arendatakse tarkvara, mis jagab dialoogi teksti lausungiteks, teeb dialoogiaktide automaatse analüüsi ja võimaldab seejärel inimesel-märgendajal vigu parandada. Intelligentses liideses lõimitakse olemasolevad ja/või teiste keeletehnoloogiaprojektide toel loodavad eesti keele automaattöötluse vahendid: morfoloogiline ja süntaktiline analüüs ja süntees, õigekirjakontroll ja vigaste vormide korrigeerimine, nimega üksuste (pärisnimed, ajaväljendid jms) tuvastamine, tekst-kõnesüntees, võimalusel ka kõnetuvastus. Viide: J. Allen, D.K. Byron, M. Dzikovska, G. Ferguson, L. Galescu, A. Stent 2001. Towards conversational human-computer interaction. – AI Magazine. http://www.cs.rochester.edu/research/cisd/pubs/2001/allen-et-al-aimag2001.pdf

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Mare KoitdoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia professor (1.00);EST / ENG01.01.2009−31.12.2009

Põhitäitjad (3)

IsikKraadTöökoht ja ametCVOsalemise periood
Mark FišeldoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; programmeerija (1.00);EST / ENG01.01.2009−31.12.2010
Siiri PärksondoktorikraadEST / ENG01.01.2009−31.12.2010
Margus TreumuthdoktorikraadEST / ENG01.01.2009−31.12.2010

Projektiga seotud tööjõud (9)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Andriela Rääbisteadur0,40,601.01.2009−31.12.2010
Andriela Rääbisteadur0,40,601.01.2010−31.12.2010
Krista Strandsonteadur0,40,601.01.2009−31.12.2010
Krista Strandsonteadur0,40,601.01.2010−31.12.2010
Olga Gerassimenkoteadur0,40,601.01.2009−31.12.2010
Olga Gerassimenkoteadur0,40,601.01.2010−31.12.2010
Päivi Kristiina Jokinen0,201.01.2009−31.12.2010
Riina Kasterpaluspetsialist0,40,601.01.2009−31.12.2010
Riina Kasterpaluspetsialist0,40,601.01.2010−31.12.2010
Projektid
Projekt
EKKM09-104; "Tartu ülikooli süstemaatilise netiallkeelte korpuse koostamine"; Tiit Hennoste;
EKKTT06-15; "Eestikeelne infodialoog arvutiga"; Mare Koit;
EKKTT06-17; "Eesti kõnekeele korpuse kogumine ja translitereerimine"; Tiit Hennoste;
EKKTT09-61; "Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine"; Tiit Hennoste;
ETF7503; "Suhtlusstrateegiad suhtlusmudelis: eestikeelse dialoogi modelleerimine arvutil"; Mare Koit;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Küsimused eestikeelses infodialoogis I. Küsimuste vorm. Keel ja Kirjandus, LII (5), 341−359.
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2009). Towards computer-human interaction in natural language. International Journal of Computer Applications in Technology, 34 (4), 291−297.10.1504/IJCAT.2009.024082.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Suulise eesti keele korpus ja inimese suhtlus arvutiga. H. Metslang, M. Langemets, M.-M. Sepper, R. Argus (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (111−130). Tallinn: Eesti Keele Sihtasutus.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Towards an Intelligent User Interface: Strategies of Giving and Receiving Phone Numbers. In: Text, Speech and Dialogue. 12th International Conference, TSD 2009 Pilsen, Czech Republic, September 2009 (347−354).. Springer. (Lecture Notes in Computer Science; 5729).
Koit, M. (2009). Experiments on Automatic Recognition of Dialogue Acts. Proceedings of SPECOM'2009: 13th International Conference Speech and Computer, St. Petersburg, 22-25 June 2009. Ed. A. Karpov. St. Petersburg, Russia: Institution of the Russian Academy of Sciences St. Petersburg Institute for Informatics and Automati, 533−538.
Koit, M.; Roosmaa, T.; Õim, H. (2009). Knowledge representation for human-machine interaction. Proceedings of the International Conference on Knowledge Engineering and Ontology Development: International Conference on Knowledge Engineering and Ontology Development, Madeira (Portugal), 6-8 October 2009. Ed. Ed. Jan L.G. Dietz. Portugal: INSTICC, 396−399.
Koit, M. (2009). Towards Human-Computer Interaction in Natural Language: Automatic Recognition of Users´ Queries. Proceedings of INISTA 2009: International Symposium on INnovations in Intelligent SysTems and Applications, Trabzon (Turkey), 29 June - 1 July 2009. Ed. I. Kaya. Trabzon: Karadeniz Teknik Universitesi, 75−79.
Koit, M. (2010). Eesti dialoogikorpus ja argumenteerimisdialoogi arvutil modelleerimine. Keel ja Kirjandus, 4, 241−262.
Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Rääbis, Andriela; Strandson, Krista (2010). Direktiivsed aktipaarid eestikeelsetes infodialoogides ja nende automaatne tuvastamine. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 6 (67−86).. Tallinn: Eesti Keele Sihtasutus.
Gerassimenko, Olga; Koit, Mare; Kasterpalu, Riina; Laanesoo, Kirsi; Rääbis, Andriela; Strandson, Krista (2010). Actions fulfilled by ‘conductive’ yes-no questions in Estonian institutional dialogues. International Conference on Conversation Analysis. Multimodal interaction. Abstracts.: International Conference on Conversation Analysis, ICCA10; Mannheim; juuli 4-8, 2010. Ed. Depperman, Arnulf. Mannheim: Institut für Deutsche Sprache, 281−281.
Treumuth, M. (2010). A Framework for Asynchronous Dialogue Systems. Frontiers in Artificial Intelligence and Applications, 219: HUMAN LANGUAGE TECHNOLOGIES — THE BALTIC PERSPECTIVE; Riga, Latvia; October 7–8, 2010. IOS Press, 107−114.10.3233/978-1-60750-641-6-107.
Pärkson, Siiri (2010). Human-Computer Interaction in Estonian: Collection and Analysis of Simulated Dialogues. Human Language Technologies - The Baltic Perspective. Proceedings of the Fourth International Conference Baltic HLT 2010: Human Language Technologies - The Baltic Perspective; Riga, Latvia; October 7–8, 2010. Ed. Skadina, Inguna; Vasiljevs, Andrejs. Latvia: IOS Press, 99−106.
Juhendamised
Juhendamised
Anni Oja, (juh) Martin Ehala; Mare Koit, Eesti internetikeele ja -suhtluse analüüs portaali rate.ee keelekorpuse põhjal, Tallinna Ülikool, Eesti Keele ja Kultuuri Instituut.
Mark Fišel, (juh) Mare Koit, Unsupervised Machine Learning in Language Technology, .
Siiri Pärkson, doktorikraad, 2016, (juh) Mare Koit; Renate Pajusalu, Dialoogist dialoogsüsteemini: partneri algatatud parandused, Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut.
Margus Treumuth, (juh) Mare Koit, The Framework for Agent-Based Asynchronous Dialogue Systems, .
Siim Orasmaa, magistrikraad, 2010, (juh) Margus Treumuth, Ajaväljendite tuvastamine eestikeelses tekstis, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut.
Andriela Rääbis, doktorikraad, 2009, (juh) Renate Pajusalu, Eesti telefonivestluse sissejuhatus: struktuur ja suhtlusfunktsioonid, Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut.