"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-15
EKKTT06-15 "Eestikeelne infodialoog arvutiga (1.01.2006−31.12.2008)", Mare Koit, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT06-15
Eestikeelne infodialoog arvutiga
1.01.2006
31.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
PerioodSumma
01.01.2006−31.12.2006350 000,00 EEK (22 369,08 EUR)
01.01.2007−31.12.2007350 000,00 EEK (22 369,08 EUR)
01.01.2008−31.12.2008550 000,00 EEK (35 151,41 EUR)
79 889,57 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Käesolev projekt on jätkuks riikliku programmi Eesti keel ja rahvuslik mälu samanimelisele keeletehnoloogiaprojektile, mis algas 2004.a ja oli kavandatud lõpptähtajaga 2008.a. Seoses arvutite levikuga omandab järjest suurema tähtsuse tarkvara, mis vahendab inimese suhtlust arvutiga loomulikus keeles, sh kõne abil. Inglise jmt keele jaoks kasutatakse arvukalt kõnedialoogsüsteeme automaatsete telefoniteenuste osutamiseks erinevates valdkondades (sh reiside kavandamine, piletite reserveerimine, ülikooliastujate nõustamine). Eesti keele jaoks selline süsteem seni puudub. Projekti eesmärgiks on tarkvara väljatöötamine, mis võimaldaks eestikeelset küsimus-vastusdialoogi arvutiga inimestevahelise suhtluse reeglite kohaselt (sh täpsustavate küsimuste esitamine, tagasiside, kultuurispetsiifilised rituaalid jms). Sellise tarkvara loomiseks vajalik keeleressurss on märgendatud dialoogikorpus. Riikliku programmi Eesti keel ja rahvuskultuur projektide Märgendatud dialoogikorpuse loomine eesti suulise kõne korpuse baasil (2002) ja Märgendatud dialoogikorpus kui eestikeelse kasutajaliidese alus (2003) alustati eesti dialoogikorpuse loomist. Töö jätkus riikliku programmi Eesti keel ja rahvuslik mälu raames alates 2004.a. Korpuse praegune maht on u 100 000 dialoogiaktide tasemel märgendatud tekstisõna. Dialoogiaktide automaatse analüüsi- ja sünteesiprogrammide väljatöötamiseks ja treenimiseks on vaja suurendada korpuse mahtu vähemalt 200 000 tekstisõnani, kusjuures korpusesse tuleb lisaks praegu olemasolevatele infotelefoni- ja reisibüroodialoogidele lülitada muud liiki suulisi infodialooge (nt bussi- või lennujaama info) ning inimese ja arvuti vahel reaalselt asetleidnud või simuleeritud dialooge. Suuliste dialoogide allikaks on eesti suulise kõne korpus; inimese ja arvuti vaheliste dialoogide kogumiseks luuakse vajalik tarkvara – veebirakendused, mis võimaldavad inimestel eesti keeles suhelda kas tegeliku või simuleeritud arvutiga (viimasel juhul nn võlur Ozi meetodil). Kohandatakse ja arendatakse varem loodud dialoogiaktide märgendusskeemi, täiendatakse dialoogiaktide märgendamise tarkvara. Uuritakse dialoogiaktide automaatse tuvastamise erinevaid meetodeid (otsustuspuud, mis kasutavad dialoogiaktide keelespetsiifilisi morfoloogilisi, süntaktilisi, semantilisi tunnuseid, ka tehisnärvivõrgud, Markovi peitmudelid jmt), et valida eesti keelele sobiv formalism. Luuakse eestikeelse infodialoogi juhtimise mudel ja koostatakse vastav programm, millega lõimitakse olemasolevad või teiste keeletehnoloogiaprojektide toel loodavad eesti keele automaatse analüüsi ja sünteesi moodulid. Selle tulemusel valmib programm – eestikeelse telefoniteenuste süsteemi prototüüp.