"Riiklik programm: Eesti keeletehnoloogia" projekt EKT8
EKT8 "Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine. (1.01.2011−31.12.2014)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKT8
Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine.
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedT120 Süsteemitehnoloogia, arvutitehnoloogia1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)25,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus75,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201125 000,00 EUR
01.01.2012−31.12.201220 000,00 EUR
01.01.2013−31.12.201320 000,00 EUR
01.01.2014−31.12.201420 000,00 EUR
85 000,00 EUR

Käesolev projekt arendab edasi töörühma projekte Eesti kõnekeele korpuse kogumine ja translitereerimine (2004-2008) ja Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine (2009-2010). Projekt moodustab kaksikprojekti prof. Mare Koidu poolt kavandatava projektiga Eestikeelse dialoogi pragmaatika analüsaator. Projekti üldeesmärgid a) filmida ja salvestada suulise eesti keele kasutust tegelikes suhtlussituatsioonides b) translitereerida tekstid ja varustada taustakirjeldusega keelekasutust mõjutavate keeleväliste nähtuste kohta c) arendada välja arvutitarkvara, mis võimaldab otsida korpusest erinevaid keelelisi nähtusi ning neid analüüsida. Suulise keele korpuse (SKK) olemus SKK on reaalsetes suhtlussituatsioonides toimuva suhtluse korpus. SKK-sse kuuluvad argi- ja institutsionaalsed vestlused, monoloogid ja dialoogid, silmast-silma, telefoni- ja meediasuhtlus. SKK koosneb salvestustest, nende transkriptsioonidest, taustakirjeldustest ja otsingutarkvaras. SKK vajalikkus Tänapäeval nõuab arvuti ja inimese dialoogi modelleerimine lisaks keele analüüsile ja sünteesile ka suhtlusnormide ehk pragmaatika modelleerimist. Senised katsed on näidanud, et selle mittearvestamine viib kasutajate rahulolematusele rakendustega. Suulise suhtluse analüüs näitab, et keele kasutamine on seotud a)kasutajate sotsiaalsete omadustega (naised/mehed jms) b)suhtlussituatsiooni tüübiga (argisuhtlus/institutsionaalne suhtlus jms) c)sooritatavate dialoogiaktidega (nt küsimuse vorm oleneb sellest, kas sellega küsitakse infot või algatatakse parandus) d)dialoogiakti positsiooniga suhtluses (nt küsimuse vorm oleneb sellest, kas see esitatakse suhtluse pealiinil või kõrvalepõikes). Neid asjaolusid arvestava Inimese-arvuti suhtlussüsteemi loomiseks tuleb analüüsida tegelikku suulist suhtlust. Sellist süsteemi ei ole põhimõtteliselt võimalik teha laboris salvestatud tekstide või kirjaliku keele analüüsidele toetudes, kuna seal kasutatakse keelt teisiti kui tegelikus suulises suhtluses. Lisaks keelelisele suhtlusele arvestatakse üha enam suhtluse mitteverbaalse komponendiga (Žestid jms), kaugemaks eesmärgiks videosuhtluse modelleerimine. Meie kogutav korpus on seetõttu vajalik andmeressurss kõigile loodavata eesti suulise keele töötluse programmide loomiseks, treenimiseks ja testimiseks. See on eelduseks nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, interaktiivsetele kõnekeele õppeprogrammidele, suulise kõne erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Kavandatavad tegevused Projekti esimeseks eesmärgiks on kolme liiki suhtluste kogumine: 1)multimodaalsed videosalvestused (videokoosolekud, argisituatsioonid, koosolekud, vestlusringid jms), 2)institutsionaalne telefonisuhtlus, sh suuline materjal Dialoogikorpuse tarvis, arvestades Mare Koidu projekti vajadusi, 3)meediasuhtluse kogumine, mida on praegu vähe. Arendame edasi mitteverbaalse suhtluse litereerimise skeemi ja tegeleme selle suhtluse litereerimisega. Põhiosa töö ajast võtab erinevate tekstide litereerimine, mis on väga ajamahus tegevus. Projekti teiseks eesmärgiks on otsingutarkvara (päringusüsteemi) arendamine, mis võimaldab otsida korpusest automaatselt erinevat materjali. Eelneva projekti käigus tegime päringusüsteemi, mille abil saab otsida sama sõnavormi variante seotuna suhtlejate erinevate sotsiaalsete parameetritega (naised/mehed, erinev haridus jms). Uues projektis jätkame päringusüsteemi arendamist vastavalt süsteemi senise kasutamise käigus ilmnenud vajadustele: a)teeme täpsemaks variantide otsingu ja lisame otsimisel kasutatavaid parameetreid, b)loome võimaluse otsida sõnade erinevaid grammatilisi vorme, c)loome võimaluse otsida üksiksõnade kõrval ka mitme lähestikuse sõna järjendeid, d)loome võimaluse otsida erinevaid lauseliikmeid. Nende tarvis tuleb lisaks integreerida süsteemi suulise keele morfoloogia ja süntaksi analüsaatorid. Päringusüsteemi luuakse antud korpuse tarvis, kuid seda arendatakse ka teiste korpuste tarvis (praegu netikeel, murdekorpus). Korpuse kasutamine ja eetika Korpuse materjali on kogutud eelmises projektis (2009-2010) ja kogutakse ka edaspidi keelejuhtide nõusoleku alusel. Olen võtnud kontakti Tartu ülikooli inimuuringute eetikakomiteega, et saada infot selle kohta, kas nende nõusolek on tarvilik või mitte. Antud korpust on kasutatud pidevalt nii Eestis kui väljapool Eestit (nt Soomes ja Rootsis) suulise keele ja suhtluse analüüsiks, arvuti ja inimese suhtluse modelleerimiseks ning eesti keele võõrkeelena õpetamise jaoks. Korpus saab olema ka edaspidi kasutatav kõigile uurijatele uurimiseks ja õppetööks. Korpus ei ole internetis vabalt kättesaadav. See on välistatud allikakaitse seaduste ja eetikaga. Materjalide saamiseks tuleb esitada soov korpuse administraatorile ja allkirjastada ülikooli juristi poolt kinnitatud konfidentsiaalsuskohustus. Edaspidi vahendab korpust eeldatavasti Eesti Keeleressursside Keskus enda poolt seatud tingimustel.
Suulise keele audiovisuaalne suhtluskorpus (SKK) on reaalsetes suhtlussituatsioonides kasutatava suulise suhtluse korpus. SKK-sse kuuluvad argi- ja institutsionaalsed vestlused, monoloogid ja dialoogid, silmast-silma, telefoni- ja meediasuhtlus. SKK koosneb (1) video- ja audiosalvestustest, (2) nende transkriptsioonidest, (3) suhtlussituatsioonide taustakirjeldustest iga salvestuse juures ja (4) otsingutarkvarast. Salvestused on wav formaadis. Tekstid on translitereeritud, kasutades vestlusanalüüsi transkriptsiooni, mis on praegu suuliste tekstide puhul enimlevnud standard. Litereeringud on mitmekordselt dubleeeritud ja olemas rtf, doc ja otsingutarkvara formaadis. Tekstid ja litereeringud on süstematiseeritud kesksete keelekasutusega seotud situatsioonitunnuste põhjal: argine ja institutsionaalne (avalik) suhtlus; dialoogid ja monoloogid; vahetu, telefoni- ja meediasuhtlus. Iga situatsioon kannab korpuses vastavat koodi (nt in_di_va_NUMBER on teatud numbriga institutsionaalne vahetu dialoog). Salvestud situatsioonid on varustatud taustakirjeldusega keelekasutust mõjutavate keeleväliste nähtuste kohta (kokku 23 tegurit). Taustakirjelduse põhiosadeks on: 0. Tehniline info salvestamise ja litereerimise kohta 1. Situatsioon (aeg, koht, suhtlussfäär jms) 2. Suhtlejad ja nende omadused (sugu, vanus, sotsiaalsed omadused jm) 3. Ainestik ja teema 4. Teksti ja suhtluse jooned (dialoog/monoloog jms) 5. Keel ja keelekasutus (suhtlusstiil, register jms) 6. Lisainfo Päringusüsteem sisaldab kõikide tekstide translitereeringuid ja taustakirjeldusei. Tema abil saab otsida sõna variante üldistatud teisenduskasuguse abil ning leida üles võimalikult kõik sama sõnavormi variandid. See on oluline suulise keele tarvis, kus on palju sama sõna varieerumist (ütles / üts jms). Oluline on asjaolu, et süsteem võimaldab otsida sõnavariante ilma neid eelnevalt morfoloogiliselt märgendamata. Käesolev projekt jätkas projektide sarja, millesse kuulusid varem Eesti kõnekeele korpuse kogumine ja translitereerimine (2004-2008) ja Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine (2009-2010). Projektis osalesid Tartu ülikooli suulise ja arvutisuhtluse labori töötajad: Tiit Hennoste (projekti juht), Olga Gerassimenko, Riina Kasterpalu, Krista Mihkels, Andriela Rääbis ja Kirsi Laanesoo. Projekti heaks töötas programmeerija Siim Orasmaa. Lisaks aitasid projekti jaoks kaasa Tartu ülikooli suulise keele loengute kuulajad-üliõpilased, kes kursuse käigus salvestasid ja litereerisid teatud määral materjali. Projekti vajalikkus Projektis kogutud korpusel kaks laia kasutussuunda. 1) Korpus on vajalikuks eelduseks suulise kõne arvutirakenduste tegemisele, nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, suulise teksti refereerimise ja sisukokkuvõtete programmidele, interaktiivsetele keeleõppeprogrammidele, mille abil õpetatakse tegelikku kõnekeelt jm. Konkreetselt moodustas käesolev projekt sisuliselt kaksikprojekti Mare Koidu juhitud projektiga “Eestikeelse dialoogi pragmaatika analüsaator“, mida finantseeriti samast programmist. Projekti üks ülesanne oli koguda, translitereerida ja ka analüüsida lingvistiliselt materjali, mis oli eeltööks M. Koidu projekti programmide tegemisele. 2) Korpus on vajalik eeldus suulise eesti keele uurimiseks erinevate meetoditega. Kuna korpus sisaldab spontaanseid tegelikke dialooge, siis on ta eriti sobiv suulise keele morfoloogia, süntaksi ja dialoogi sõnavara, grammatika ja pragmaatika uurimiseks. Antud korpust on kasutatud praktiliselt kõigis nii Eestis kui väljapool Eestit (nt Soomes ja Rootsis) tehtud suulise eesti keele ja suhtluse analüüsides ning ka eesti keele võõrkeelena õpetamise jaoks. Konkreetselt: aastal 2014 algas projekt „Suulise eesti keele tervikkäsitlus“ (Tiit Hennoste, 2014-2016) , mille tulemusel valmib esimene suulise eesti keele terviklik ülevaade. See on omakorda eeltööks esmakordse suulise keele osa kirjutamiseks uude eesti keele grammatikasse (peab valmima aastaks 2018). Ilma käesolevas projektisarjas kogutud korpuseta oleks see töö täiesti võimatu. Projektis eesmärgid ja kavandatud tegevused Projekti kavandatud tegevused jagunevad kahte osasse: suulise suhtluse tekstide kogumine ja korpuse otsingumootori arendamine. Materjali kogumine Projekti esimeseks eesmärgiks oli suulise suhtluse tekstide salvestamine, translitereerimine ja varustamine taustakirjeldusega. Eesmärgiks oli koguda ennekõike kolme liiki suhtlussituatsioone: - multimodaalne suhtlus (videokoosolekud, argisituatsioonid, koosolekud, vestlusringid jms), mida kogutakse videosalvestuste abiga; - verbalne suhtlus, eriti institutsionaalne telefonisuhtlus; - meediasuhtlus (TV ja raadio). Kogumistöö tulemused Kavandatud eesmärgid on peaaegu täielikult täidetud. Projekti jooksul 2011-2014 on kogutud: 43 tundi videosalvestusi; 23 tundi verbaalse suhtluse audiosalvestusi; 19 tundi meediasuhtluse salvestusi (raadiosaadete eelsalvestused ja raadiosaated). Projekti jooksul on translitereeritud kokku 460 000 sõna (osa. Märkus: Kogu suulise eesti keele korpus aasta 2014 lõpu seisuga sisaldab 659 tundi salvestusi. Kokku on 3872 vestlust, mille seas on 3748 audio- ja 127 videosalvestust. Tüübilt jagunevad need: 1922 telefonikõnet, 1306 silmast silma suhtlust, 442 meediasuhtlust, 198 muud suhtlust. Translitereeritud on 2285 vestlust või selle osa, kokku ca 1 960 000 tekstisõna. Projekti keskseks kogutavaks materjaliks olid multimodaalse suhtluse videosalvestused. Põhjuseks on ennekõike asjaolu, et tänapäeva suulise keele uuringud tegelevad valdavalt videomaterjaliga ning selline materjal lubab uurida mitteverbaalset keelt, selle seoseid verbalse keelega ning luua tegelikku multimodaalset keelekasutust arvestavaid suhtlusprogramme (nt interaktiivsed multimodaalsed keeleõppeprogrammid). Videosalvestuste kvaliteetset kogumist võimaldas 2010. aastal saadud multimodaalse suhtluse labor (kaamerad, programmid jm). Võimalusel kasutati korraga kahte kaamerat, mis võimaldab uurimisel vaadelda eri suhtlejate mitteverbaalset tegevust. Tähtsuselt teine oli verbaalse suhtluse kogumine, sh institutsionaalse telefonisuhtluse kogumine, arvestades antud projekti keskse koostööpartneri, Mare Koidu projekti “Eestikeelse dialoogi pragmaatika analüsaator“ vajadusi. Kolmandaks teemaks oli plaanitud meediasuhtluse kogumine. Seda oli seni kogutud vähe. Videosalvestuste ja verbaalse suhtluse salvestuste kavandatud eesmärgid ületati. Meediasuhtluse kogumine jäi suuremas osa tegemata. Põhjus: kuna raha eraldati projektile küsitust oluliselt vähem, siis keskendusime tegelikus töös kahele esimesele suhtlusliigile, sest need olid korpuse seisukohast olulisemad. Need on suhtlused, mida on vaja eraldi koguda, samas meediasuhtlust saab kergesti hankida nt ERR-i arhiivist. Meediatekstide kogumine ei jää ära. Nende tarvis on koostatud valikukriteeriumid ning nende saamine on ERR arhiiviga kokku lepitud. Vaba raha tekkimisel saab ka tekstid kopeerida. Kogumise ja translitereerimise kõrval oli eesmärgiks arendada edasi mitteverbaalse suhtluse litereerimise skeemi ja tegeleda selle suhtluse litereerimisega. Mitteverbaalse materjali translitereerimissüsteemi standardit ei ole maailma suuliste korpuste puhul olemas. Töötasime läbi ja katsetasime erinevad litereerimise süsteemid ning koostasime nende algusel enda tarvis süsteemi. Mitteverbaalse suhtluse litereerimine on äärmiselt töömahuks ja seetõttu litereeritakse üksnes uurimiseks vajalikke tekstiosasid. Otsingutarkvara Projekti teiseks eesmärgiks oli eelneva projekti käigus tehtud otsingutarkvara (päringusüsteemi) arendamine. Projektis oli plaanis jätkata päringusüsteemi arendamist vastavalt süsteemi kasutamise käigus ilmnenud vajadustele: a) teha täpsemaks variantide otsingut ja lisada otsimisel kasutatavaid parameetreid, b) luua võimalus otsida üksiksõnade kõrval ka mitme lähestikuse sõna järjendeid, c) luua võimalus otsida sõnade erinevaid grammatilisi vorme, d) luua võimalus otsida erinevaid lauseliikmeid. Nende tarvis oli kavas integreerida süsteemi suulise keele morfoloogia ja süntaksi analüsaatorid. Tulemused Kavandatud eesmärgid on peaaegu täielikult täidetud. a) Päringusüsteemi on täiustatud. Praegu on võimalik otsida sõnu piisavalt paljude taustaparameetrite alusel. Kasutatavad parameetrid: vestluse tüüp, suhtlejate hulk, suhtlejate omavahelised suhted, sugu, vanus, haridus, sotsiaalne staatus. Süsteemis on seotud tekstid ja nende taustakirjeldused, mis võimaldab avada teksti juures tema taustainfo. b) On lisatud päring, mis lubab otsida üksiksõna kõrval ka mitme lähestikku paikneva sõna kogumeid. c) On lisatud liidese osa, mis lubab otsida sõnavariante sõnaliigi ja morfoloogiliste vormide alusel. Selleks on integreeritud süsteemi ka eesti keele morfanalüsaator. See on materjali otsimiseks eriti oluline ja vajalik liides. Tegemata jäi lauseliikmete otsimise süsteem. Põhjusi on kaks. Esiteks, meie teada ei ole suulise süntaksi analüsaator sellises seisus, et seda saaks otsingumootoris kasutada. Teiseks, projekt sai pidevalt oluliselt vähem raha kui küsitud ning see ei võimaldanud palgata vajalikku lisatööjõudu programmeerimiseks. Päringusüsteem loodi suulise keele korpuse tarvis, kuid seda on modifitseeritud teiste korpuste tarvis (hetkel netikeele ja Võru murde korpus). Päringusüsteem on väga õnnestunud ja hästi kasutatav. Kokkuvõttes on projekti alguses püsitatud ülesanded peaaegu täielikult täidetud. Osa töid jäi tegemata, kuna raha saadi küsitust oluliselt vähe. Samas on osa plaane ületatud. Korpuse kasutamine ja eetika Oleme saanud Tartu ülikooli inimuuringute eetikakomiteelt kinnituse, et meie korpus ei vaja eetikakomitee eraldi luba. Korpuse materjali kogutakse keelejuhtide nõusoleku alusel. Suhtluses osalejad täidavad kirjaliku dokumendi, millega nad annavad materjali korpusesse uurijatele kasutamiseks Korpus ei ole internetis vabalt kättesaadav. See on välistatud allikakaitse seaduste ja eetikaga. Korpus on ja saab olema ka edaspidi kasutatav kõigile uurijatele teaduslikel eesmärkidel ja õppetööks (v.a. vähesed väga tundlikud materjalid, nagu arsti-patsiendi vestlused, mis on väljapoole suulise keele laborit kasutamiseks suletud). Materjalide saamiseks tuleb esitada soov korpuse administraatorile (hetkel Andriela Rääbis; andriela.raabis@ut.ee). Kasutamiseks tuleb allkirjastada ülikooli juristi poolt kinnitatud konfidentsiaalsuskohustus, milles on toodud materjalide kasutamise tingimused ja piirata avalikult esitatavad tsitaadid kõnelejate identifitseerimist mittevõimaldava mahuni. Korpuse otsingumootori lihtsustatud demoversioon on vabalt vaatamiseks aadressil: https://biit-dev.cs.ut.ee/~orasmaa/sk-demo/. Korpuse säilitamine Korpus kuulub Tartu ülikoolile. Seda haldab korpuse koostaja ehk Tartu ülikooli Eesti keele instituudi suulise ja arvutisuhtluse labor. Materjalide originaalid ja nendest tehtud koopiad paiknevad suulise suhtluse laboris. Salvestused säilitatakse DVD-del (vanad lisaks ka analooglintidel), kahes arvuti välismälus ja dialoogikorpuse tööpingis www.dialoogid.ee/dialoogid. Litereeringud ja taustakirjeldused asuvad välismäludes ja arvutites. Kõik materjalid on mitmekordselt dubleeritud. Päringusüsteem ja temaga seotud materjalid on professor Jaak Vilo töörühma serveris. Edaspidi vahendab korpust eeldatavasti Eesti Keeleressursside Keskus. Projekti rahade eest ostetud tehnika (arvutid, monitorid, tarkvara) jääb uurimisrühma kasutusse. Amortiseerunud riistvara vms hetkel ei ole. Andmebaase raha eest soetatud ei ole.