"Riiklik programm: Eesti keel ja kultuurimälu" projekt EKKM09-104
EKKM09-104 "Tartu ülikooli süstemaatilise netiallkeelte korpuse koostamine (1.01.2009−31.12.2013)", Tiit Hennoste, Tartu Ülikool, Tartu Ülikool, Filosoofiateaduskond.
EKKM09-104
Tartu ülikooli süstemaatilise netiallkeelte korpuse koostamine
1.01.2009
31.12.2013
Riiklik programm: Eesti keel ja kultuurimälu
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikoolkoordinaator01.01.2009−31.12.2013
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2013
PerioodSumma
01.01.2009−31.12.2009254 070,00 EEK (16 238,03 EUR)
01.01.2010−31.12.2010236 000,00 EEK (15 083,15 EUR)
01.01.2011−31.12.201114 500,00 EUR
01.01.2012−31.12.201214 500,00 EUR
01.01.2013−31.12.201314 500,00 EUR
74 821,18 EUR

Projekti põhieesmärgiks on koostada süstemaatiline osaliselt eeltöödeldud eestikeelsete netiallkeelte korpus. Korpus peab sisaldama nii kirjaliku kui suulise netikeele oluliste allkeelte materjale, mis on on kogutud süstemaatiliselt ja millele on lisatud vajalikud taustakirjeldused ja vahendid keelematerjali leidmiseks ja analüüsimiseks. Põhjendus Nett on uus suhtluskeskkond, mille mõju keelele on võrreldav ainult kirjaliku keele tulekuga. Uues keskkonnas kujunevad uued suhtlusvormid ja allkeeled, mis mõjutavad omakorda olevaid allkeeli ja suhtlust. Eestis on netikeele korpusi kogutud seni üksikuurijate poolt oma uurimisülesannete tarvis või lisategevustena muude projektide juures. Puudub süsteemne ja erinevaid netikeele variante ehk allkeeli koondav korpus, mis on netikeele uurimiseks hädavajalik. Nt ainult korpus, mis sisaldab samal teemal ilmuvad netiuudised, nende kommentaarid, teema käsitlused vestlustubades ja blogides (veebipäevikutes) võimaldab analüüsida allkeelte erinevust ja sarnasust ning erinevate suhtlusvormide mõju keelele. Netieele süsteemne arhiveerimine on vajalik, sest muidu kaob ainulaadne võimalus fikseerida ja analüüsida täiesti uute allkeelte sündi. Netis on kasutusel nii kirjalik kui suuline keel. Sealjuures on suur osa kirjaliku netikeele uutest joontest seotud suhtlusega, milles kasutatakse dialoogi, vahetut tagasisidet ja muid jooni, mis on seni olnud omased suulisele keelekasutusele. Seetõttu on kirjaliku netikeele uued jooned seotud suulise keelega, kust laenatud vahendeid ja võtteid arendatakse edasi uue keskkonna tarvis. Samas muutuvad netikeele mõjul ka suuline ja traditsiooniline kirjalik suhtlus. Nii võimaldab süsteemne eri allkeeli sisaldav korpus analüüsida, kuidas suulise keele jooned selles muutuvad ja arenevad ning analüüsida suulise keele selliseid muutusi, mis pärinevad netikeelest. Kuna on vaja arhiveerida suulist keelt ning kesksed uuendused kirjalikus netikeeles on seotud suulise keelega, on meie arvates vajalik netikeele korpus luua nimelt suulise keele korpuse kõrvale, et kasutada ära suulise keele korpuse kogujate kompetentsi. Netikeel vajab kiirest kogumist. Esiteks, suur osa netitekste kustutatakse kiiresti peale suhtlusakti toimumist. Teiseks, osa senistest suhtlusvormidest kaob. Veebi kontseptsiooni muutumisega (Web2.0 tulek) on interneti sisu ja seal toimuv suhtlus muutumas. Staatilise ja aeglaselt edastatava tekstipõhise suhtluse asemele on tulemas interaktiivne, dünaamiline ja multimodaalne suhtlus. Nt on kadumas staatilised veebilehed, ainult teksti edastamisega piiratud jututoad ja IRC-kanalid. Praegu on üleminekuperiood ja kaduva keele kogumine on uurimise ja keele muutumise seisukohast eriti oluline. Neti neti kasutust reguleeriv seadusandlus on muutumas. Üha enam kehtestatakse piiranguid, mis mõjutavad tugevalt just keelekasutust netis. Samas on näha, et suhtlusviisid, mida tehniliselt või seadusandlikult piiratakse, kaovad. Suhtlejad liiguvad üle teise keskkonda või valivad uue suhtlusviisi. Nt toimub Eestis praegu anonüümsete kommetaaride kohta käiva reeglistiku muutus, mille tulemuseks on nimelt muutused kommentaaride keeles. See nõuab antud keelevormi kiiret kogumist. Igasugused allkeelte erijooned on seotud situatiivsete mõjuritega. See nõuab lisaks tekstidele ka nende mõjurite kaardistamist ehk taustakirjelduste loomist esinevate teksti-ja suhtlustüüpide kohta. See omakorda võimaldab korpuse materjali süstematiseerida, et edaspidi oleks võimalik otsida automaatselt eri taustaomadustega keelenähtusi, tekste või situatsioone. Seega tuleb välja töötada netisuhtluse tüüpide taustakirjalduste mudel. Kokkuvõttes on vaja: -analüüsida netikeele vorme ja koostada netiallkeelte põhitüpoloogia, mis on aluseks eri keelevormide valikule -koostada netikeele üldkorpuse ja alamkorpuste struktuur ja jaotus -luua tehniline baas ja vahendid korpuse automaatseks kogumiseks (arvuti, programmid). -võimalusel integreerida seni olemasolevad teiste kogutud korpused terviku osaks. -koguda kiiresti allkeeli ja tekstitüüpe ja suhtlusvorme, mis on kadumas või milles on toimumas kiired muutused -lahendada pidevalt netikeele korpuse kogumise ja kasutamise juriidilisi küsimusi kooskõlas vastava seadusandluse arenguga Osa korpusest on vaja uurijatele eeltöödelda. Selleks tuleb -koostada tekstitüüpide taustakirjaldused -märgendada osa korpusest morfoloogiliselt ja süntaktiliselt. Selleks tuleb modifitseerida eesti keele morfanalüsaatorit ja süntaksiananalüsaatorit netikeele tarvis -luua erinevad otsinguprogrammid, mis lubavad leida töödeldud korpusest erinevate keeleliste ja taustomadustega tekste Süsteemne ja eeltöödeldud netiallkeelte korpus on vajalik lisaks keeleuurijatele ka sotsiaalteaduste uurijatele, kes tegelevad uues keskkonnas tekkivate ja muutuvate sotsiaalsete suhetega. Samuti on see vajalik meediauurijatele, sest netiga seoses on muutumas kogu ajakirjanduse kontseptsioon ja olemus. Sealjuures on see eriti oluline avalikõigusliku meedia arengu seisukohast.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit HennostedoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Suulise ja arvutisuhtluse labor; Teadur (1.00);EST / ENG01.01.2009−31.12.2012

Põhitäitjad (6)

IsikKraadTöökoht ja ametCVOsalemise periood
Olga Gerassimenkomagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (0.50);EST / ENG01.01.2009−31.12.2013
Riina KasterpaluTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Muu ... (1.00);EST / ENG01.01.2009−31.12.2013
Krista MihkelsdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; erakorraline teadur (1.00);EST / ENG01.01.2009−31.12.2013
Anni OjaTallinna Ülikool, Eesti Keele ja Kultuuri Instituut; doktorant (1.00);EST / ENG01.01.2009−31.12.2011
Siim OrasmaadoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Tarkvarasüsteemide õppetool; programmeerija (0.40);EST / ENG01.01.2011−31.12.2013
Andriela RääbisdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; arvutilingvistika teadur (1.00);EST / ENG01.01.2009−31.12.2013
Projektid
Projekt
EKKTT06-15; "Eestikeelne infodialoog arvutiga"; Mare Koit;
EKKTT06-17; "Eesti kõnekeele korpuse kogumine ja translitereerimine"; Tiit Hennoste;
EKKTT09-61; "Tartu ülikooli eesti kõnekeele audio- ja videokorpuse kogumine ja otsingutarkvara loomine"; Tiit Hennoste;
EKT8; "Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine."; Tiit Hennoste;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Laanesoo, K.; Oja, A.; Rääbis, A.; Strandson, K. (2010). The structure of a discontinuous dialogue formed by internet comments. In: Sojka, P.; Horak, A.; Kopecek, I.; Pala, K. (Ed.). Text, Speech and Dialogue (515−522).. Berlin/Heidelberg: Springer-Verlag.
Hennoste, Tiit; Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Laanesoo, Kirsti; Oja, Anni; Rääbis, Andriela; Strandson, Krista (2010). Internet Commentators as Dialogue Participants: Coherence Achieved through Membership Categorization. Proc. of the 4th International Conference Baltic HLT: 4th International Conference Human Language Technologies - the Baltic Perspective; Riga; 7.-8. oktoober 2010. Ed. Skadina, I.; Vasiljevs, A. IOS Press, 83−90. (Frontiers in Artificial Intelligence and Applications; 219).10.3233/978-1-60750-641-6-83.
Hennoste, Tiit; Gerassimenko, Olga; Kasterpalu, Riina; Koit, Mare; Laanesoo, Kirsi; Oja, Anni; Rääbis, Andriela; Strandson, Krista (2010). Poliitikute kategoriseerimine netikommentaarides. IX rakenduslingvistika kevadkonverents Kommunikatsiooni moodused ja keeled 22.-23. aprill 2010 Tallinn, Teesid: IX rakenduslingvistika kevadkonverents Kommunikatsiooni moodused ja keeled 22.-23. aprill 2010 Tallinn. 7.10.5128/ERYteesid.IX.
Hennoste, T.; Gerassimenko, O.; Kasterpalu, R.; Koit, M.; Mihkels, K.; Laanesoo, K.; Oja, A.; Rääbis, A. (2011). Naabruspaarid ja kategoriseerimine netikommentaarides kui sidusa dialoogi loomise vahendid. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat 7 (43−58).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa7.03.
Hennoste, Tiit; Oja, Anni (2011). Membership categorization of the public figures in Estonian reality show Dancing with the Stars. Disocourse 2.0 Language & New Media, GURT 2011: Disocourse 2.0 Language & New Media, GURT 2011. Georgetown University, Washington, DC, March 10-13, 2011. 71.
Hennoste, Tiit (2011). Special features of syntax of Estonian used in spontaneous MSN dialogues. Discourse 2.0 Language & New Media, GURT 2011. Ed. Deborah Tannen, Anna Marie Trester. 73.
Hennoste, T. (2012). Enda algatatud eneseparandus eestikeelsetes MSN-i dialoogides. Eesti Rakenduslingvistika Ühingu aastaraamat = Estonian Papers in Applied Linguistics (37−54).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.03.
Hennoste, Tiit; Pajusalu, Karl (2013). Eesti keele allkeeled. Õpik gümnaasiumile. Tallinn: Eesti Keele Sihtasutus [ilmumas].
Juhendamised
Juhendamised
Anni Oja, (juh) Martin Ehala; Mare Koit, Eesti internetikeele ja -suhtluse analüüs portaali rate.ee keelekorpuse põhjal, Tallinna Ülikool, Eesti Keele ja Kultuuri Instituut.