"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-61
EKKTT09-61 "Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine (1.01.2009−31.12.2010)", Tiit Hennoste, Tartu Ülikool, Filosoofiateaduskond.
EKKTT09-61
Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine
1.01.2009
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2010
PerioodSumma
01.01.2009−31.12.2009442 270,00 EEK (28 266,20 EUR)
01.01.2010−31.12.2010400 000,00 EEK (25 564,66 EUR)
53 830,86 EUR

Projekti üldeesmärgid: a) koguda kõnekeele tekste, translitereerida ja varustada taustakirjeldusega keelekasutust mõjutavate keeleväliste nähtuste kohta b) arendada arvutitarkvara, mis võimaldab otsida korpusest erinevaid keelelisi nähtusi ning neid analüüsida. Kõnekeele korpuse (KK) olemus. KK on tegelike spontaansete dialoogide ja monoloogide korpus, kitsamalt pragmaatilis-suhtluslik keelekorpus, mis võimaldab eriti hästi analüüsida keele kasutamist suhtluses, mida ei võimalda teist tüüpi korpused. KK-sse kuuluvad argi- ja institutsionaalsed suhtlused, monoloogid ja dialoogid, silmast-silma, telefoni- ja meediasuhtlus. KK koosneb kõnelindistustest, nende transkriptsioonidest, taustakirjeldustest ja tarkvarast, mis võimaldab otsida ja analüüsida korpusest erinevaid keelelisi nähtusi. KK on allikas suulise kõne keeleteaduslikuks analüüsiks ja suulise dialoogi modelleerimiseks. Analüüs on eelduseks nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, interaktiivsetele kõnekeele õppeprogrammidele, suulise kõne erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Projekt arendab edasi sama töörühma eelmist projekti Eesti kõnekeele korpuse kogumine ja translitereerimine (2004-2008). Eelmist projekti jätkavad tegevused: -Tartu ülikooli suulise keele korpuse lindistamine, transkribeerimine ja taustakirjeldustega varustamine -selle sees inimese-arvuti suhtluse modelleerimiseks kasutatava institutsionaalseid infodialooge sisaldava korpuse (Dialoogikorpuse) lindistamine, transkribeerimine ja taustakirjeldustega varustamine Professor Mare Koidu juhitavate projektide tarvis -Enne elmist projekti, 1997-2004 kogutud analoogformaadis korpuseosa digitaliseerimine ja transkriptsioonide täpsustamine, viimaks need vastavusse transkriptsiooni praeguse seisuga -kogu korpuse taustakirjelduste korrastamine, mis on eelduseks selle maksimaalselt arvutipõhisele kasutusele -täppistranskriptsiooni (maksimaalse põhjalikkusega tehtud transkriptsiooni) valdavate transkribeerijate koolitamine -korpuse kogumise ja kasutamisega seotud juriidiliste probleemide lahendamine vastavuses Eesti ja Euroopa Liidu areneva seadusandlusega Käesoleva projekti uued tegevused jagunevad kahte rühma. Projekti üheks uueks eesmärgiks on videokorpuse kogumine: -videoformaadis lindistuste tegemine (klassidialoogid, lasteaiatunnid, argivestlused, koosolekud jms), kuna suulise keele uurimine on järjest enam hakanud analüüsima keele ja mitteverbaalse suhtluse seoseid ja laiemalt multimodaalsust -mitteverbaalse suhtluse litereeringute alustamine Prijekti teiseks uueks eesmärgiks on tarkvara arendamine, mis võimaldaks otsida ja analüüsida korpusest automaatselt erinevat materjali. Kuna käesolev projekt kestab kaks aastat, siis oleme kavandanud siia järgmised tööd: -sõnavariantide päringusüsteemu arendamine, mis otsib üles sama sõna mittekirjakeelsed variandid nende esinemise tõenäosuse järgi. See on eriti vajalik programm, kuna suulises keeles on palju erinevaid sama sõna variante. Siin on kavas kasutada ära ja treenida suulisele keelele sobivaks professor Jaak Vilo ja tema rühma poolt loodud ligikaudse otsimise süsteemi. - praeguse taustakirjelduse süsteemi viimine sellisesse formaati, mis on vajalik automaatotsinguks - võrgus oleva korpuse kasutamist juhtiva juhendmaterjali arendamine

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit HennostedoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Eesti keele osakond; Teadur (1.00);EST / ENG01.01.2009−31.12.2009

Põhitäitjad (7)

IsikKraadTöökoht ja ametCVOsalemise periood
Olga Gerassimenkomagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (0.50);EST / ENG01.01.2009−31.12.2010
Riina KasterpaluTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; (1.00);EST / ENG01.01.2009−31.12.2010
Krista MihkelsdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; erakorraline teadur (1.00);EST / ENG01.01.2009−31.12.2010
Anni OjaTallinna Ülikool, Eesti Keele ja Kultuuri Instituut; doktorant (1.00);EST / ENG01.01.2009−31.12.2010
Siim OrasmaadoktorikraadEST / ENG01.01.2009−31.12.2010
Andriela RääbisdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; erakorraline teadur (1.00);EST / ENG01.01.2009−31.12.2010
Jaak VilodoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; Professor (1.00);EST / ENG01.01.2009−31.12.2010
Publikatsioonid
Publikatsioonid
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Küsimused eestikeelses infodialoogis I. Küsimuste vorm. Keel ja Kirjandus, LII (5), 341−359.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Suulise eesti keele korpus ja inimese suhtlus arvutiga. H. Metslang, M. Langemets, M.-M. Sepper, R. Argus (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (111−130). Tallinn: Eesti Keele Sihtasutus.
Hennoste, T. (2009). Ei ole ja pole kasutus suulises spontaanses eesti keeles. Emakeele Seltsi Aastaraamat 54 (2008) (72−93).. Tallinn: Emakeele Seltsi aastaraamat.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Rääbis, A.; Strandson, K. (2009). Towards an Intelligent User Interface: Strategies of Giving and Receiving Phone Numbers. In: Text, Speech and Dialogue. 12th International Conference, TSD 2009 Pilsen, Czech Republic, September 2009 (347−354).. Springer. (Lecture Notes in Computer Science; 5729).
Koit, M.; Gerassimenko, O.; Kasterpalu, R.; Rääbis, A.; Strandson, K. (2009). Towards computer-human interaction in natural language. International Journal of Computer Applications in Technology, 34 (4), 291−297.10.1504/IJCAT.2009.024082.
Rääbis, A. (2009). Social functions of locational inquiries in Estonian telephone conversations. Abstracts. 11th International Pragmatics Conference: 11th International Pragmatics Conference (IPrA); Melbourne, Australia; 12.-17.07.2009. 304.
Rääbis, A. (2009). Eesti telefonivestluste sissejuhatus: struktuur ja suhtlusfunktsioonid. (Doktoritöö, Tartu Ülikool). Tartu Ülikooli Kirjastus.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Laanesoo, K.; Oja, A.; Rääbis, A.; Strandson, K. (2010). The structure of a discontinuous dialogue formed by internet comments. In: Sojka, P.; Horak, A.; Kopecek, I.; Pala, K. (Ed.). Text, Speech and Dialogue (515−522).. Berlin/Heidelberg: Springer-Verlag.
Hennoste, Tiit; Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Laanesoo, Kirsti; Oja, Anni; Rääbis, Andriela; Strandson, Krista (2010). Internet Commentators as Dialogue Participants: Coherence Achieved through Membership Categorization. Proc. of the 4th International Conference Baltic HLT: 4th International Conference Human Language Technologies - the Baltic Perspective; Riga; 7.-8. oktoober 2010. Ed. Skadina, I.; Vasiljevs, A. IOS Press, 83−90. (Frontiers in Artificial Intelligence and Applications; 219).10.3233/978-1-60750-641-6-83.
Orasmaa, Siim ; Käärik, Reina ; Vilo, Jaak ; Hennoste, Tiit (2010). Information Retrieval of Word Form Variants in Spoken Language Corpora Using Generalized Edit Distance. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10): The International Conference on Language Resources and Evaluation; Valletta, Malta; May 17-23, 2010. Ed. Calzolari, Nicoletta; Choukri, Khalid; Maegaard, Bente; Mariani, Joseph; Odjik, Jan. Valletta, Malta: ELRA, 623−629.
Hennoste, T. (2009). Allkeeled. Revised. Lahe, Jaan; Pädam, Tiit (Toim.). Minu Issand ja minu Jumal! Pühendusteos Dr. theol. Toomas Pauli 70. sünnipäevaks (234−243).. Tallinn: EELK Usuteaduse Instituut. (EELK Usuteaduse Instituudi toimetised ; 20).
Rääbis, A. (2010). Tšau Miina mis teed. Telefonivestluse alustamisest meil ja mujal. Oma Keel, 1, 19−25.
Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Rääbis, Andriela; Strandson, Krista (2010). Direktiivsed aktipaarid eestikeelsetes infodialoogides ja nende automaatne tuvastamine. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 6 (67−86).. Tallinn: Eesti Keele Sihtasutus.
Gerassimenko, Olga; Koit, Mare; Kasterpalu, Riina; Laanesoo, Kirsi; Rääbis, Andriela; Strandson, Krista (2010). Actions fulfilled by ‘conductive’ yes-no questions in Estonian institutional dialogues. International Conference on Conversation Analysis. Multimodal interaction. Abstracts.: International Conference on Conversation Analysis, ICCA10; Mannheim; juuli 4-8, 2010. Ed. Depperman, Arnulf. Mannheim: Institut für Deutsche Sprache, 281−281.
Pool, R.; Rääbis, A. (2010). Telefonivestlused eesti keele õpikutes. IX rakenduslingvistika kevadkonverents Kommunikatsiooni moodused ja keeled 22.-23. aprill 2010 Tallinn, Teesid: IX rakenduslingvistika kevadkonverents Kommunikatsiooni moodused ja keeled 22.-23. aprill 2010 Tallinn. 18.10.5128/ERYteesid.IX.
Strandson, Krista (2010). The aspects of multimodality in the teacher-initiated repair sequence in classroom interaction. International Conference on Conversation Analysis. Multimodal interaction. Abstracts.: International Conference on Conversation Analysis, ICCA10; Mannheim; juuli 4-8, 2010. Ed. Depperman, Arnulf. Mannheim: Institut für Deutsche Sprache,.
Kasterpalu, Riina; Keevallik, Leelo (2010). Marking the epistemic gap in news receipts. International Conference on Conversation Analysis. Multimodal Interaction. Abstracts.: International Conference on Conversation Analysis, ICCA10; Mannheim; 04.-08.07.2010. Ed. Deppermann, Arnulf. Mannheim: Institut für Deutsche Sprache, 105.
Koit, M. (2010). Eesti dialoogikorpus ja argumenteerimisdialoogi arvutil modelleerimine. Keel ja Kirjandus, 4, 241−262.
Hennoste, T. (0). Pivot constructions in Estonian interaction: pivots with verb repetition as a resource for post-pivot repair and portioning of information. In: International Conference on Conversation Analysis. Multimodal interaction. Abstracts.International Conference of Conversation Analysis, ICCA 2010, Mannheim, Germany, July 4-8, 2010. Mannheim: Institut für Deutsche Sprache, Universitet Mannehim.
Juhendamised
Juhendamised
Olga Gerassimenko, (juh) Renate Pajusalu, Tagasisidepartiklid eesti ja vene keeles, .
Andriela Rääbis, (juh) Renate Pajusalu, Telefonivestlus eesti keeles, .
Krista Mihkels, (juh) Parandusmehhanism koolitunnis, .
Riina Kasterpalu, (juh) Haldur Õim; Leelo Keevallik, Dialoogipartiklite jah, jaa, jaajaa ning ahhaa funktsioonid eestikeelses institutsionaalses dialoogis., Tartu ülikool.