"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-57
EKKTT09-57 "Intelligentne kasutajaliides andmebaasidele (1.01.2009−31.12.2010)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-57
Intelligentne kasutajaliides andmebaasidele
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2009−31.12.2009508 140,00 EEK (32 476,07 EUR)
01.01.2010−31.12.2010470 000,00 EEK (30 038,47 EUR)
62 514,54 EUR

Taotletav projekt on jätkuks 2008.a lõppenud projektile EKKTT06-15 Eestikeelne infodialoog arvutiga, mille tulemusel loodi veebis kasutatav küsimus-vastussüsteem, mis annab vastuseks kasutaja eestikeelsele küsimusele infot kindla ainevaldkonna kohta, tuginedes kasutaja päringus tuvastatavatele (ainevaldkonna-spetsiifilistele) võtmesõnadele ja -fraasidele. Taotletavas projektis üldistatakse saadud kogemust sellise kasutajaliidese loomiseks, mis võimaldaks hõlpsat adapteerumist erinevatele ainevaldkondadele ja seostamist erinevate andmebaasidega. Liidest saab minimaalsete täienduste tegemise teel häälestada uutele ainevaldkondadele ja siduda andmebaasidega, andes seega kasutajale võimaluse pöörduda andmebaaside poole eesti keeles ning saada vastuseks adekvaatset, tõest infot. Kasutaja sisestab oma päringu eesti keeles ja saab intelligentse kasutajaliidese vahendusel vastuse samuti eesti keeles, tekstina või soovi korral tehiskõnes. Aluseks võetakse kaks hüpoteesi (Allen jt, 2001): 1) praktilise dialoogi hüpotees, mille kohaselt praktilisteks (inimese ja arvuti vahelisteks infoandmise ja/või nõustamise) dialoogideks vajalikku kompetentsi on oluliselt lihtsam saavutada kui üldist inimestevahelise vestluse kompetentsi, ning 2) valdkonnast sõltumatuse hüpotees, mille kohaselt seisneb praktiliste dialoogide põhiline keerukus loomuliku keele mõistmises, samas kui dialoogi juhtimine on sõltumatu lahendatavast ülesandest. Erinevates ainevaldkondades leiduvad ühised minimaalsed baastunnused, mis tagavad põhilise suhtlusfunktsionaalsuse, samal ajal kui säilib ainevaldkonna-spetsiifilise info kättesaadavus ja antava info kasulikkus. Dialoogihalduris realiseeritakse infodialoogi juhtimise üldine mudel, mis võtab arvesse erinevates praktilistes infodialoogides kehtivad üldised seaduspärasused. Loodavat liidest saab kasutada ka „võlur Ozi“ režiimis (kus arvuti rolli mängib inimene), see võimaldab hõlpsal viisil koguda andmeid liidese häälestamiseks uuele ainevaldkonnale, s.t määramaks, missuguseid kasutaja lausungeid ja missuguseid dialoogiakte peaks intelligentne liides hiljem suutma käsitleda ning kuidas nendele reageerima. Sellise tarkvara loomiseks vajalik keeleressurss on märgendatud dialoogikorpus. Mitme varasema projekti raames on kogutud TÜ Eesti dialoogikorpus, millesse praegu kuulub 1) 1000 inimestevahelist telefonikõnet ametiasutustesse (infotelefon, reisibüroo jne), 2) 20 inimese ja arvuti vahelist simuleeritud dialoogi (kus ainevaldkonnaks on bussi- ja laevareisid), 3) 75 vestlust (lõppenud projektis arendatud) dialoogsüsteemiga. Inimestevahelistes vestlustes on märgendatud dialoogiaktid vastavalt TÜ dialoogiaktide tüpoloogiale. Taotletava projekti põhieesmärgi saavutamiseks laiendatakse eeskätt simuleeritud dialoogide osakaalu korpuses, sest see on lihtsaim ja kiireim viis koguda ainevaldkonna-spetsiifilist materjali uuele ainevaldkonnale üleminekul. Kogutud dialoogides märgendatakse dialoogiaktid ja analüüsitakse erinevate aktide väljendamise võimalusi eesti keeles, et tagada loodava liidese intelligentsus. Dialoogiaktide märgendamiseks arendatakse tarkvara, mis jagab dialoogi teksti lausungiteks, teeb dialoogiaktide automaatse analüüsi ja võimaldab seejärel inimesel-märgendajal vigu parandada. Intelligentses liideses lõimitakse olemasolevad ja/või teiste keeletehnoloogiaprojektide toel loodavad eesti keele automaattöötluse vahendid: morfoloogiline ja süntaktiline analüüs ja süntees, õigekirjakontroll ja vigaste vormide korrigeerimine, nimega üksuste (pärisnimed, ajaväljendid jms) tuvastamine, tekst-kõnesüntees, võimalusel ka kõnetuvastus. Viide: J. Allen, D.K. Byron, M. Dzikovska, G. Ferguson, L. Galescu, A. Stent 2001. Towards conversational human-computer interaction. – AI Magazine. http://www.cs.rochester.edu/research/cisd/pubs/2001/allen-et-al-aimag2001.pdf