"Riiklik programm: Eesti keel ja rahvuslik mälu" projekt EKRM04-3
EKRM04-3 "Eesti kõnekeele korpuse kogumine ja translitereerimine (1.01.2004−31.12.2005)", Tiit Hennoste, Tartu Ülikool.
EKRM04-3
Eesti kõnekeele korpuse kogumine ja translitereerimine
1.01.2004
31.12.2005
Teadus- ja arendusprojekt
Riiklik programm: Eesti keel ja rahvuslik mälu
AsutusRollPeriood
Tartu Ülikoolkoordinaator01.01.2004−31.12.2005
PerioodSumma
01.01.2004−31.12.2004100 000,00 EEK (6 391,16 EUR)
01.01.2005−31.12.2005124 000,00 EEK (7 925,04 EUR)
14 316,20 EUR

Projekti eesmärk on koguda 5 aasta jooksul 3 000 000-sõnaline kõnekeele korpus (Eesti keelestrateegia eesmärk). Kõnekorpus on hädavajalik kõigi projektide jaoks, mis analüüsivad ja modelleerivad suulist kõnet. Korpus on allikas eesti suulise kõne keeleteaduslikuks ja dialoogimudelite analüüsiks. Analüüs omakorda on eelduseks kõne rakenduste tegemisele, nt kõnetuvastusele ja telefonipõhistele infosüsteemidele, suulise teksti refereerimise ja sisukokkuvõtete programmidele, interaktiivsetele keeleõpperogrammidele, mille abil õpetatakse tegelikku kõnekeelt. Samuti on ta eelduseks suulise kõne erisõnastike koostamisele, mis on pea kõigi keeletehnoloogiliste rakenduste realiseerimiste eelduseks. Selline korpus peab sisaldama erinevate suulise kõne allkeelte materjale. Samas ei ole võimalik täpselt öelda, kui palju ja milliseid konkreetseid situatsioone peab korpus sisaldama. See on vaja kooskõlastada projektidega, mis hakkavad korpuse materjali käsutama. Korpuse koostamiseks on vaja teha ettevalmistavad ja üldorganiseerivad tööd, millest olulised on järgmised: -koostada 'üldkorpuse ja ka teiste projektide jaoks vajalike alamkorpuste (infodialoogid, eriti telefonikõned) struktuuri ja mahtude jaotus. -minna üle korpuse digitaalsele kogumisele ja töötlemisele, mis nõuab ettevalmistavaid tegevusi (nt koostada eestikeelne juhend transkribeerimisprogrammi CLAN jaoks ja Õpetada välja transkribeerijad) Seejärel on vaja koguda ja translitereerida tekstid