"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-61
EKKTT09-61 "Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine (1.01.2009−31.12.2010)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKKTT09-61
Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2010
PerioodSumma
01.01.2009−31.12.2009442 270,00 EEK (28 266,20 EUR)
01.01.2010−31.12.2010400 000,00 EEK (25 564,66 EUR)
53 830,86 EUR

Projekti üldeesmärgid: a) koguda kõnekeele tekste, translitereerida ja varustada taustakirjeldusega keelekasutust mõjutavate keeleväliste nähtuste kohta b) arendada arvutitarkvara, mis võimaldab otsida korpusest erinevaid keelelisi nähtusi ning neid analüüsida. Kõnekeele korpuse (KK) olemus. KK on tegelike spontaansete dialoogide ja monoloogide korpus, kitsamalt pragmaatilis-suhtluslik keelekorpus, mis võimaldab eriti hästi analüüsida keele kasutamist suhtluses, mida ei võimalda teist tüüpi korpused. KK-sse kuuluvad argi- ja institutsionaalsed suhtlused, monoloogid ja dialoogid, silmast-silma, telefoni- ja meediasuhtlus. KK koosneb kõnelindistustest, nende transkriptsioonidest, taustakirjeldustest ja tarkvarast, mis võimaldab otsida ja analüüsida korpusest erinevaid keelelisi nähtusi. KK on allikas suulise kõne keeleteaduslikuks analüüsiks ja suulise dialoogi modelleerimiseks. Analüüs on eelduseks nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, interaktiivsetele kõnekeele õppeprogrammidele, suulise kõne erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Projekt arendab edasi sama töörühma eelmist projekti Eesti kõnekeele korpuse kogumine ja translitereerimine (2004-2008). Eelmist projekti jätkavad tegevused: -Tartu ülikooli suulise keele korpuse lindistamine, transkribeerimine ja taustakirjeldustega varustamine -selle sees inimese-arvuti suhtluse modelleerimiseks kasutatava institutsionaalseid infodialooge sisaldava korpuse (Dialoogikorpuse) lindistamine, transkribeerimine ja taustakirjeldustega varustamine Professor Mare Koidu juhitavate projektide tarvis -Enne elmist projekti, 1997-2004 kogutud analoogformaadis korpuseosa digitaliseerimine ja transkriptsioonide täpsustamine, viimaks need vastavusse transkriptsiooni praeguse seisuga -kogu korpuse taustakirjelduste korrastamine, mis on eelduseks selle maksimaalselt arvutipõhisele kasutusele -täppistranskriptsiooni (maksimaalse põhjalikkusega tehtud transkriptsiooni) valdavate transkribeerijate koolitamine -korpuse kogumise ja kasutamisega seotud juriidiliste probleemide lahendamine vastavuses Eesti ja Euroopa Liidu areneva seadusandlusega Käesoleva projekti uued tegevused jagunevad kahte rühma. Projekti üheks uueks eesmärgiks on videokorpuse kogumine: -videoformaadis lindistuste tegemine (klassidialoogid, lasteaiatunnid, argivestlused, koosolekud jms), kuna suulise keele uurimine on järjest enam hakanud analüüsima keele ja mitteverbaalse suhtluse seoseid ja laiemalt multimodaalsust -mitteverbaalse suhtluse litereeringute alustamine Prijekti teiseks uueks eesmärgiks on tarkvara arendamine, mis võimaldaks otsida ja analüüsida korpusest automaatselt erinevat materjali. Kuna käesolev projekt kestab kaks aastat, siis oleme kavandanud siia järgmised tööd: -sõnavariantide päringusüsteemu arendamine, mis otsib üles sama sõna mittekirjakeelsed variandid nende esinemise tõenäosuse järgi. See on eriti vajalik programm, kuna suulises keeles on palju erinevaid sama sõna variante. Siin on kavas kasutada ära ja treenida suulisele keelele sobivaks professor Jaak Vilo ja tema rühma poolt loodud ligikaudse otsimise süsteemi. - praeguse taustakirjelduse süsteemi viimine sellisesse formaati, mis on vajalik automaatotsinguks - võrgus oleva korpuse kasutamist juhtiva juhendmaterjali arendamine