"Riiklik programm: Eesti keeletehnoloogia" projekt EKT8
EKT8 "Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine. (1.01.2011−31.12.2014)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKT8
Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine.
1.01.2011
31.12.2014
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedT120 Süsteemitehnoloogia, arvutitehnoloogia1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)25,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus75,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201125 000,00 EUR
01.01.2012−31.12.201220 000,00 EUR
01.01.2013−31.12.201320 000,00 EUR
01.01.2014−31.12.201420 000,00 EUR
85 000,00 EUR

Käesolev projekt arendab edasi töörühma projekte Eesti kõnekeele korpuse kogumine ja translitereerimine (2004-2008) ja Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine (2009-2010). Projekt moodustab kaksikprojekti prof. Mare Koidu poolt kavandatava projektiga Eestikeelse dialoogi pragmaatika analüsaator. Projekti üldeesmärgid a) filmida ja salvestada suulise eesti keele kasutust tegelikes suhtlussituatsioonides b) translitereerida tekstid ja varustada taustakirjeldusega keelekasutust mõjutavate keeleväliste nähtuste kohta c) arendada välja arvutitarkvara, mis võimaldab otsida korpusest erinevaid keelelisi nähtusi ning neid analüüsida. Suulise keele korpuse (SKK) olemus SKK on reaalsetes suhtlussituatsioonides toimuva suhtluse korpus. SKK-sse kuuluvad argi- ja institutsionaalsed vestlused, monoloogid ja dialoogid, silmast-silma, telefoni- ja meediasuhtlus. SKK koosneb salvestustest, nende transkriptsioonidest, taustakirjeldustest ja otsingutarkvaras. SKK vajalikkus Tänapäeval nõuab arvuti ja inimese dialoogi modelleerimine lisaks keele analüüsile ja sünteesile ka suhtlusnormide ehk pragmaatika modelleerimist. Senised katsed on näidanud, et selle mittearvestamine viib kasutajate rahulolematusele rakendustega. Suulise suhtluse analüüs näitab, et keele kasutamine on seotud a)kasutajate sotsiaalsete omadustega (naised/mehed jms) b)suhtlussituatsiooni tüübiga (argisuhtlus/institutsionaalne suhtlus jms) c)sooritatavate dialoogiaktidega (nt küsimuse vorm oleneb sellest, kas sellega küsitakse infot või algatatakse parandus) d)dialoogiakti positsiooniga suhtluses (nt küsimuse vorm oleneb sellest, kas see esitatakse suhtluse pealiinil või kõrvalepõikes). Neid asjaolusid arvestava Inimese-arvuti suhtlussüsteemi loomiseks tuleb analüüsida tegelikku suulist suhtlust. Sellist süsteemi ei ole põhimõtteliselt võimalik teha laboris salvestatud tekstide või kirjaliku keele analüüsidele toetudes, kuna seal kasutatakse keelt teisiti kui tegelikus suulises suhtluses. Lisaks keelelisele suhtlusele arvestatakse üha enam suhtluse mitteverbaalse komponendiga (Žestid jms), kaugemaks eesmärgiks videosuhtluse modelleerimine. Meie kogutav korpus on seetõttu vajalik andmeressurss kõigile loodavata eesti suulise keele töötluse programmide loomiseks, treenimiseks ja testimiseks. See on eelduseks nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, interaktiivsetele kõnekeele õppeprogrammidele, suulise kõne erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Kavandatavad tegevused Projekti esimeseks eesmärgiks on kolme liiki suhtluste kogumine: 1)multimodaalsed videosalvestused (videokoosolekud, argisituatsioonid, koosolekud, vestlusringid jms), 2)institutsionaalne telefonisuhtlus, sh suuline materjal Dialoogikorpuse tarvis, arvestades Mare Koidu projekti vajadusi, 3)meediasuhtluse kogumine, mida on praegu vähe. Arendame edasi mitteverbaalse suhtluse litereerimise skeemi ja tegeleme selle suhtluse litereerimisega. Põhiosa töö ajast võtab erinevate tekstide litereerimine, mis on väga ajamahus tegevus. Projekti teiseks eesmärgiks on otsingutarkvara (päringusüsteemi) arendamine, mis võimaldab otsida korpusest automaatselt erinevat materjali. Eelneva projekti käigus tegime päringusüsteemi, mille abil saab otsida sama sõnavormi variante seotuna suhtlejate erinevate sotsiaalsete parameetritega (naised/mehed, erinev haridus jms). Uues projektis jätkame päringusüsteemi arendamist vastavalt süsteemi senise kasutamise käigus ilmnenud vajadustele: a)teeme täpsemaks variantide otsingu ja lisame otsimisel kasutatavaid parameetreid, b)loome võimaluse otsida sõnade erinevaid grammatilisi vorme, c)loome võimaluse otsida üksiksõnade kõrval ka mitme lähestikuse sõna järjendeid, d)loome võimaluse otsida erinevaid lauseliikmeid. Nende tarvis tuleb lisaks integreerida süsteemi suulise keele morfoloogia ja süntaksi analüsaatorid. Päringusüsteemi luuakse antud korpuse tarvis, kuid seda arendatakse ka teiste korpuste tarvis (praegu netikeel, murdekorpus). Korpuse kasutamine ja eetika Korpuse materjali on kogutud eelmises projektis (2009-2010) ja kogutakse ka edaspidi keelejuhtide nõusoleku alusel. Olen võtnud kontakti Tartu ülikooli inimuuringute eetikakomiteega, et saada infot selle kohta, kas nende nõusolek on tarvilik või mitte. Antud korpust on kasutatud pidevalt nii Eestis kui väljapool Eestit (nt Soomes ja Rootsis) suulise keele ja suhtluse analüüsiks, arvuti ja inimese suhtluse modelleerimiseks ning eesti keele võõrkeelena õpetamise jaoks. Korpus saab olema ka edaspidi kasutatav kõigile uurijatele uurimiseks ja õppetööks. Korpus ei ole internetis vabalt kättesaadav. See on välistatud allikakaitse seaduste ja eetikaga. Materjalide saamiseks tuleb esitada soov korpuse administraatorile ja allkirjastada ülikooli juristi poolt kinnitatud konfidentsiaalsuskohustus. Edaspidi vahendab korpust eeldatavasti Eesti Keeleressursside Keskus enda poolt seatud tingimustel.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit HennostedoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Suulise ja arvutisuhtluse labor; Teadur (1.00);EST / ENG01.01.2011−31.12.2014

Põhitäitjad (7)

IsikKraadTöökoht ja ametCVOsalemise periood
Olga Gerassimenkomagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (0.50);EST / ENG01.01.2011−31.12.2014
Riina KasterpaluTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Muu ... (1.00);EST / ENG01.01.2011−31.12.2014
Kirsi LaanesoomagistrikraadTöökoht puudubEST / ENG01.01.2011−31.12.2014
Krista MihkelsdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Suulise ja arvutisuhtluse labor; Teadur (1.00);EST / ENG01.01.2011−31.12.2014
Anni OjaTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Spetsialist (0.50);EST / ENG01.01.2011−31.12.2011
Siim OrasmaadoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Tarkvarasüsteemide õppetool; programmeerija (0.40);EST / ENG01.01.2011−31.12.2014
Andriela RääbisdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Suulise ja arvutisuhtluse labor; Teadur (1.00);EST / ENG01.01.2011−31.12.2014
Publikatsioonid
Publikatsioonid
Hennoste, T. (2011). Suuline süntaks ehk dialoogi protsessilausete grammatika. Oma Keel, 2, 11−16.
Hennoste, T.; Kasterpalu, R. (2011). Positive answers to positively formulated yes-no questions in Estonian institutional interaction. Abstracts: 12th International Pragmatics Conference. Manchester, U.K. 3-8 July 2011. International Pragmatics Association http://ipra.ua.ac.be, 442.
Hennoste, Tiit. (2012). Küsimuse vorm, episteemiline staatus ja episteemiline hoiak. Keel ja Kirjandus, 674−695.
Hennoste, Tiit; Rääbis, Andriela; Laanesoo, Kirsi (2012). Küsimustega tehtavad suhtlustegevused eestikeelses infodialoogis. 11. rakenduslingvistika kevadkonverents, Tallinn, 26.-27.04.2012, teesid: 11. rakenduslingvistika kevadkonverents; Tallinn; 26.-27.04.2012.
Kasterpalu, R. (2012). Preference for hearing the news: the case of the response particle jaajaa in Estonian business negotiations. Nordic Prosody XI Book of Abstracts: Nordic Prosody XI, University of Tartu, 15-17 August 2012. Ed. Eva-Liina Asu, Pärtel Lippus, Karl Pajusalu. Tartu Ülikool,.
Rääbis, A. (2012). Direktiivisekventsid isa ja tütre suhtluses: juhtumianalüüs. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 8 (213−230).. Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.14.
Gerassimenko, Olga (2012). Funktsii chastic obratnoj svjazi v telefonnom dialoge (na primere leksem a, aga i gm). Kompjuternaja lingvistika i intellektual'nye tehnologii. Po materialam mezhdunarodnoj konferencii Dialog 2012, 11: Dialoog 2012; Bekassovo, Venemaa; 30.05.-3.06.2012. Toim. Kibrik, A.E. (peatoim.). Moskva: RGGU (Russkij gosudarstvennyj gumanitarnyj universitet),. (18).
Hennoste, Tiit (2013). Pivot constructions in Spoken Estonian. Journal of Pragmatics, 54, 73−91.10.1016/j.pragma.2013.03.012.
Hennoste, Tiit; Rääbis, Andriela; Laanesoo, Kirsi (2013). Küsimused eestikeelses infodialoogis II: küsimused ja tegevused. Keel ja Kirjandus, 1, 7−28.
Hennoste, Tiit; Rääbis, Andriela (2013). Searching information necessary to implement the answer. Questions in Estonian institutional information-seeking dialogues. SLE 2013. University of Split. Book of abstracts: SLE 2013, 46th Annual Meeting of the Societas Linguistica Europaea, 18.-21.09.2013, Split, Croatia. 153−154.
Kasterpalu, R. (2013). Two different intonation contours of Estonian jaajaa. Nordic Prosody. Proceedings of the XIth Conference, Tartu 2012: Nordic Prosody XI; Estonia, Tartu; 15.-17.Aug 2012. Ed. Eva-Liina Asu, Pärtel Lippus. Peter Lang Verlag,.
Mihkels, Krista (2013). Keel, keha ja kaardikepp: õpetaja algatatud parandussekventside multimodaalne analüüs. (Tartu Ülikool). Tartu: Tartu Ülikooli Kirjastus.
Juhendamised
Juhendamised
Krista Mihkels, (juh) Renate Pajusalu, Vestluskaaslase parandusalgatused koolitunnis, Tartu Ülikool.
Riina Kasterpalu, (juh) Haldur Õim; Leelo Keevallik, Dialoogipartiklite jah, jaa, jaajaa ning ahhaa funktsioonid eestikeelses institutsionaalses dialoogis., Tartu ülikool.
Olga Gerassimenko, (juh) Renate Pajusalu, Tagasisidepartiklid eesti ja vene keeles, .
Tiit Hennoste, doktorikraad, 2013, (juh) Helle Metslang, Grammatiliste vormide seoseid suhtlustegevustega eestikeelses suulises vestluses, Tartu Ülikool.
Kirsi Laanesoo, doktorant, (juh) Andriela Rääbis; Helle Metslang; Tiit Hennoste, Ümberpööratud polaarsusega küsimused eesti igapäevases suhtluses, Tartu Ülikool.