"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-14
EKKTT06-14 "Eesti keele koondkorpus (1.01.2006−31.12.2009)", Kadri Muischnek, Tartu Ülikool, Filosoofiateaduskond.
EKKTT06-14
Eesti keele koondkorpus
1.01.2006
31.12.2009
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2006−31.12.2009
PerioodSumma
01.01.2006−31.12.2006320 000,00 EEK (20 451,73 EUR)
01.01.2007−31.12.2007320 000,00 EEK (20 451,73 EUR)
01.01.2008−31.12.2008640 000,00 EEK (40 903,46 EUR)
01.01.2009−31.12.2009633 293,00 EEK (40 474,80 EUR)
122 281,72 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Korpused ehk elektroonilised tekstikogud on keetarkvara väljatöötamisel vältimatult vajalikud. Statistikapõhiste süsteemide treenimiseks vajatakse väga suuri tekstihulki, ka reeglipõhiste süsteemide testimiseks ja keelekirjeldustes varem esitamata seaduspärasustel põhinevate reeglite kirjutamiseks vajatakse tekstikorpusi. Keelekorpus on üks põhilisi keelematerjali allikaid ka eesti keele teaduslikul uurimisel. Käesoleva projekti eesmärgiks on täita riikliku programmi „Eesti keele keeletehnoloogiline tugi“ seletuskirja punktis 3.2.1. Kirjaliku keele korpused püstitatud eesmärgid – (1) eesti keele koondkorpuse arendamine 200 miljoni sõnani ja (2) koondkorpuse automaatne morfoloogiline märgendamine. Käesolev projekt jätkab riikliku programmi „Eesti keel ja rahvuslik mälu“ projekti „Eesti keele koondkorpus“ raames tehtud tööd. Võrreldes programmi „Eesti keel ja rahvuslik mälu“ raames esitatud projektiga, on käesoleva projekti ülesannetesse lisandunud koondkorpuse morfoloogiline märgendamine ja sellega seoses pikeneb projekt ühe aasta võrra. Eesti keele koondkorpuse suurus on hetkel ligi sada miljonit sõna. Kahesaja miljoni sõna suuruse korpuse loomiseks tuleb jätkata suuremahuliste ajalehekorpuste kogumist. Samas ei tohi unustada ka teisi kirjaliku keelekasutuse allkeeli ning selliseid uusi kirjaliku keelekasutuse vorme nagu internetisuhtluses kasutatav spontaanne kirjalik keel. Praegu on koondkorpus märgendatud vastavalt TEI (Text Encoding Initiative) standardile ja esitatud SGML-s. Otstarbekas on minna üle XML standardile, kuna see on kujunemas rahvusvaheliselt levinuimaks korpuste esitamise ja märgendamise viisiks ning paljud vabavarana levitatavad korpuste esitamise ja töötlemise vahendid eeldavad, et korpus on XML-s. Korpuse morfoloogilist märgendamist on otstarbekas teostada projekti lõpus, st märgendada võimalikult suured tekstihulgad korraga. Kuigi morfoloogilist märgendamist on võimalik teostada täisautomaatselt, on see siiski suuremahuline töö, mida on vaja põhjalikult ette valmistada, sh analüüsides kriitiliselt märgendite süsteemi ja analüsaatori sobivust nn traditsioonilisest kirjalikust keelekasutusest erinevate tekstide töötlemiseks. Kui koondkorpuse kogumine lõpeb 2008. aastal, siis morfoloogiline märgendamine toimuks alles 2009. aastal.