"Riiklik programm: Eesti keel ja kultuurimälu" projekt EKKM09-111
EKKM09-111 "Eesti murrete ja sugulaskeelte andmebaas (1.01.2009−31.12.2013)", Liina Lindström, Tartu Ülikool, Filosoofiateaduskond.
EKKM09-111
Eesti murrete ja sugulaskeelte andmebaas
The Database of Estonian Dialects and Kindred Languages
1.01.2009
31.12.2013
Teadus- ja arendusprojekt
Riiklik programm: Eesti keel ja kultuurimälu
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2009−31.12.2013
PerioodSumma
01.01.2009−31.12.2009301 120,00 EEK (19 245,08 EUR)
01.01.2010−31.12.2010280 000,00 EEK (17 895,26 EUR)
01.01.2011−31.12.201116 000,00 EUR
01.01.2012−31.12.201216 000,00 EUR
01.01.2013−31.12.201317 000,00 EUR
86 140,34 EUR

„Eesti murrete ja sugulaskeelte andmebaas“ on jätkuks varasemale Tartu Ülikooli projektile „Eesti murrete korpus II“, mille käigus koostöös Eesti Keele Instituudiga valiti välja helisalvestused kõigist eesti murretest, seejärel litereeriti umbes 1 miljon tekstisõna ning neist omakorda 500000 tekstisõna on saanud ka morfoloogilise märgenduse. Eesti murrete korpus sisaldab: 1) digitaliseeritud helilindistusi; 2) foneetilises transkriptsioonis tekste (1 mln tekstisõna); 3) samu tekste lihtsustatud transkriptsioonis; 4) morfoloogiliselt märgendatud tekste xml-formaadis ning nende põhjal koostatud MySql-andmebaasi (0,5 mln tekstisõna); 5) andmebaasi keelejuhtide ja lindistuste andmetega. Korpusel on olemas interneti kodulehekülg www.murre.ut.ee otsingumootoriga, ent olemasolev otsimootor ei ole siiski piisav kasutajate vajaduste rahuldamiseks. Käesolev projekt jätkab laiendab ja ajakohastab korpuse mitmekülgsete kasutusvõimalustega andmebaasiks. Projekti põhieesmärk on muuta juba olemasolevad kogutud ja töödeldud materjalid uurijatele kättesaadavamaks ning hõlpsamini kasutatavaks ning moodustada olemasolevatest osadest elektrooniline andmebaas erinevaid päringuid võimaldava otsingumootoriga. Teine suurem eesmärk on suurendada korpuse ja morfoloogiliselt märgendatud andmebaasi mahtu ning laiendada käsitletavate alade hulka, et suurendada korpuse usaldusväärsust ja kasutusvõimalusi. Täpsemalt võib eesmärgid sõnastada järgmiselt: - luua olemasolevate andmebaasidele ja korpusematerjalidele veebipõhine otsimootor, mis oleks kasutajasõbralik ning võimaldaks teha mitmekülgseid päringuid; - suurendada morfoloogiliselt märgendatud tekstide mahtu 500 000 tekstisõna võrra (1 000 000 tekstisõnani); parandada ja täiendada olemasolevaid morfoloogiliselt märgendatud tekste; - lisada keeleainest eesti murretest ja keelesaartelt 300 000 tekstisõna võrra; - lisada keeleainest lähisugukeeltest 200 000 tekstisõna võrra; - välja töötada meetod litereeringute ja helifailide sidumiseks; siduda vähemalt pooled korpuses kasutatud tekstid (nii lihtsustatud transkriptsioonis kui morfoloogiliselt märgendatud failis) helisalvestistega ning muuta need otsingumootris kättesaadavaks. See võimaldab uurijatel hõlpsalt iga päringu puhul kuulata ka algset salvestist; - arendada olemasolevat automaatset süntaksianalüsaatorit nii, et see toimiks eesti murrete käsitlemisel ning lisada andmebaasi 100 000 süntaktiliselt analüüsitud ning ühestatud tekstisõna (koostöös keeletehnoloogi Kaili Müürisepaga). Lisaks eespool mainitud tegevustele on vajalik veel andmebaasis kasutatavate helisalvestiste digitaalne töötlus. Projektis osalevad teadur (0,5), kes on ühtlasi projekti juht ja töö koordinaator, ning spetsialist (0,5), lisaks osalevad töös mitmed doktorandid ja magistrandid töövõtulepingute alusel.