"Riiklik programm: Eesti keeletehnoloogia" projekt EKT5
EKT5 "Eestikeelse dialoogi pragmaatika analüsaator (1.01.2011−31.12.2013)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT5
Eestikeelse dialoogi pragmaatika analüsaator
1.01.2011
31.12.2013
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2011−31.12.201128 000,00 EUR
01.01.2012−31.12.201223 000,00 EUR
01.01.2013−31.12.201318 000,00 EUR
69 000,00 EUR

Taotletava projekti tulemusel valmib tarkvaraprototüüp järgmiste riiklikus programmis püstitatud ülesannete lahendamiseks: o Pragmaatiline analüüs (teatud valdkondades) o Seotud teksti (dialoogi) struktuuri automaatne tuvastamine, dialoogi struktuur (eraldi suuline ja kirjalik, nt interneti-dialoog) o Dialoogiaktide automaatne tuvastamine o Dialoogistrateegiate automaatne tuvastamine Lisaks sellele arendab projekt ühte keeleressurssi – Eesti dialoogikorpust – tarkvara loomiseks vajalikus ulatuses. Maailmas on loodud hulgaliselt dialoogsüsteeme, millega kasutaja saab suhelda loomulikus keeles, teksti või kõne vahendusel (ajakohast ülevaadet vt nt Jokinen, McTear 2009). Enamasti on selleks keeleks olnud inglise keel ja rakendusvaldkond piiratud kindla ülesande lahendamisega (nt nime järgi telefoninumbri valimine, info ilma-, liiklusolude vms kohta, piletite broneerimine jne). See, et arvuti suudab tuvastada kasutaja kõnet (teisendada helisignaal tekstiks) ja sünteesida tehiskõnet (teisendada antud tekst helisignaaliks), ei taga veel suhtlust. Lisaks kõnetuvastusele ja –sünteesile on oluline, et arvuti oskaks kõnetuvastuse tulemusel saadud teksti analüüsida ja kasutajale väljastatavat vastusteksti sünteesida – tunneks kasutaja tekstis ära tervituse, küsimuse või mõne muu dialoogiakti, suudaks leida kasutajale vajalikku informatsiooni ning moodustada lause(d), millega seda informatsiooni kasutajale väljastada. Dialoogsüsteem peab edukaks toimimiseks olema suuteline läbi viima teksti analüüsi, probleemilahenduse ja teksti sünteesi. Eesti keele jaoks on olemas või arendamisel mitmed teksti automaattöötluse vahendid: morfoloogiline analüüs ja süntees, lause süntaktiline ja semantiline analüüs. Seni on üksnes vähesel määral tegeldud eestikeelse seotud teksti pragmaatilise analüüsi formaliseerimisega. Taotletav projekt seab eesmärgiks seotud teksti ühe liigi – eestikeelse dialoogi – automaatse pragmaatilise analüüsi. Lisaks inimesega eesti keeles suhtlevale dialoogsüsteemile leiab dialoogi pragmaatiline analüüs kasutust lingvisti töövahendina dialoogi uurimisel. Projekti käigus kavandatakse järgmiste pragmaatilise analüüsi osaülesannete lahendamine: 1. teadmuse automaatne ekstraheerimine eestikeelsest tekstist (dialoogist), 2. dialoogiaktide automaatne tuvastamine, 3. dialoogi struktuuri automaatne analüüs, 4. dialoogistrateegiate automaatne analüüs. Kahe esimese ülesande osas jätkab taotletav projekt 2010.a lõppenud projekti EKKTT09-057 Intelligentne kasutajaliides andmebaasidele, mille tulemusel töötati välja andmebaasides olevat infot vahendava intelligentse kasutajaliidese kontseptsioon ja valmis seda realiseeriv programm – asünkroonsete dialoogsüsteemide raamistik (vt ka Treumuth 2010). Raamistiku häälestamine uuele ainevaldkonnale seisneb tema ühe mooduli – teadmusbaasi – uuendamises. Raamistikku testiti kahes lihtsas ainevaldkonnas (hambaraviinfo ja kinoinfo). Testimine näitas, et uue teadmusbaasi loomine on töömahukas, mistõttu on taotletavas projektis esimese ülesandena kavandatud teadmuse automaatse ekstraheerimise meetodite uurimine ja realiseerimine, sh õppimine toimunud dialoogidest. Lõppenud projektis uuriti ja testiti ka mitmeid andmepõhiseid meetodeid dialoogiaktide tuvastamiseks eestikeelsete suuliste dialoogide transkriptsioonides, eesmärgiga koostada programm, mis võimaldaks poolautomaatselt märgendada dialoogiakte. Valmis programmi testversioon, mis aga ei ole veel piisavalt tõrkekindel ja kasutajasõbralik. Seetõttu on taotletavas projektis teise ülesandena taas püstitatud dialoogiaktide automaatne tuvastamine, et luua programm, mille saagis ja täpsus rahuldaksid praktilise rakendamise vajadusi. Taotlejale teadaolevalt puuduvad praegu rahvusvahelised standardid dialoogiaktide, dialoogi struktuuri ja dialoogistrateegiate annoteerimiseks. Dialoogiaktide tuvastamisel võetakse aluseks TÜ dialoogiaktide tüpoloogia, mida projekti käigus korrastatakse, võttes arvesse dialoogikorpuse märgendamise kogemusi. Loodavat pragmaatika analüsaatorit ja Eesti dialoogikorpust hakkab vahendama Eesti Keeleressursside Keskus. Kuna Eesti dialoogikorpus sisaldab sensitiivset materjali (suulised inimestevahelised dialoogid TÜ Eesti suulise keele korpusest, võlur Ozi meetodil kogutud dialoogid), siis on tema kättesaadavus piiratud vastavalt Eesti Keeleressursside Keskuse poolt sätestatavatele litsentsitingimustele. Võlur Ozi dialoogide kogumiseks, kus arvutit simuleerib kasutaja teadmata teine inimene, viiakse läbi (lisaks seni toimunutele) uued eksperimendid. Eksperimentide läbiviimine on kooskõlastatud TÜ inimuuringute eetika komiteega 2010. aastal; kooskõlastus kehtib kuni 31. 08. 2012. Viited Kristiina Jokinen, Michael McTear 2009. Spoken Dialogue Systems (Synthesis Lectures on Human Language Technologies). Morgan & Claypool Publihers. Margus Treumuth 2010. A Framework for Asynchronous Dialogue Systems. In: Frontiers in Artificial Intelligence and Applications: Human Language Technologies — The Baltic Perspective; Riga, Latvia; 107 - 114.