See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keel ja rahvuslik mälu (EKRM)" projekt EKRM04-10
EKRM04-10 "Eesti keele koondkorpus (1.01.2004−31.12.2005)", Kadri Muischnek, Tartu Ülikool.
EKRM04-10
Eesti keele koondkorpus
1.01.2004
31.12.2005
Teadus- ja arendusprojekt
Riiklik programm: Eesti keel ja rahvuslik mälu (EKRM)
AsutusRollPeriood
Tartu Ülikoolkoordinaator01.01.2004−31.12.2005
PerioodSumma
01.01.2004−31.12.2004190 000,00 EEK (12 143,21 EUR)
01.01.2005−31.12.2005200 000,00 EEK (12 782,33 EUR)
24 925,54 EUR

200 miljoni sõnalise, erinevaid tekstiklasse ja -tüüpe esindava eesti keele tekstikorpuse loomine. Põhjendus Riikliku programmi ,,Eesti keei ja rahvuslik mälu (2004-2008) punktis ,,2. Keeletehnoloogia all toodud ülesannete hulgas on esimesel köha! punkt: ,,1. Eesti kirjakeele elektroonilise koondkorpuse arendamine 200 miljoni sõnani {korpuse ühik), mida eeldavad kõik järgnevalt loetletud tööd ning mis on ühtaegu keeleteaduslike uurimuste põhiline materjaliallikas. Käesolev projekt peab selle punkti täitma. Riiklikust sihtprogrammist ,,Eesti kee! ja rahvuskultuur on varem toetatud kahte eesti keele korpuse loomise projekti: Eesti keele koondkorpuse loomine ja hooldamine 2000-2003 ja Eesti keele kasutusalade koondkorpus 2002-2003. Nende kähe projekti tulemusel on praeguseks kogutud 89 miljoniline korpus, mille märgendamine on aga veel lõpetamata. Seejuures on tähelepanu pööratud kahele mõneti vastandlikule vajadusele: 1. Korjata võimalikult suur korpus, hoolimata piiratud finantsvõimalustest. See tähendab, et korpusesse on korjatud tekste, mida on võimalikult lihtne (st. odav) sinna lülitada - ajalehed, Riigikogu stenogrammid, seadused ja nende tõlked. 2. Lisaks korpuse suurusele on tähtis ka see, et korpus esindaks keelt ja tema mitmekesisust-tekstiklasse, tüüpe ning valdkondi - võimalikult laialt. Paraku on mõned tekstiklassid, nt ilukirjandus ja (popuiaar)teadus tänapäeval raskemini kättesaadavad kui teised. See tähendab, et tuleb teha spetsiaalseid pingutusi, et korpus sisaldaks ka neid proportsionaalselt teistega. Nt suhtlemine teoste (eriti itukirjandusteoste) autoritega, autoriõigusega seotud juriidiliste probleemide lahendamine. Kogemus on näidanud, et kõige lihtsam viis saada suuri tekstihulk! on koguda ajalehetekste. Vahemärkusena võib öelda, et ajaletekstid moodustavad suurtest korpustest sageli enamuse, vt nt soomlaste Kielipankki-korpust (www.csc.fi/kielipankki) Eesti suurematest ajalehtedest on kogutud päevalehte Postimees ja nädalalehte Eesti Ekspress, oma järge on ootamas veel Eesti Päevaleht ja Maaleht (mille tiraa˛ on sama suur kui Eesti Ekspressi oma ja mis väärib tähelepanu kui teistest ajalehtedest erinevat teemaderingi kajastav ja pisut ka teistsugust keelekasutust esindav väljaanne). Lepingud nende ajalehtede käsutamiseks on juba sõlmitud. Eriti just lingvistilisteks eesmärkideks vajatakse veel kähe kindlapiirilise tekstiklassi - teaduse ja ilukirjanduse - tekste. Siin on kogemus näidanud, et võrreldes ajalehetekstidega nõuab nende tekstiklasside tekstide kogumine tunduvalt suuremat tööjõukulu, kuna tekstid ise on väiksemad ja nende formaalne kuju on väga ebaühtlane (s.o. iga kirjanik on oma teksti kujundanud oma parema äranägemise järgija igaüks isemoodi), mistõttu nende teisendamise ja märgendamise näol on tegemist pool-käsitsitööga. Siiski võetakse selle projekti minimaalseks eesmärgiks saada loodavasse koondkorpusesse vähemalt kümne miljoni sõna mahus teadus-ja ilukirjandustekste, kusjuures hulka on arvestatud ka tõlketekstid ja teaduse hulka tuleb lugeda ka populaarteadus. Selle projekti raames ei taha me piirduda ainult ülalkirjeldatud nn kiassikaliste tekstitüüpidega, vaid koguda väga erinevaid kirjalikke tekste, s.h. nt. bürokraatia keelt, kasutusjuhendeid, aga ka selliseid tekstitüüpe nagu interneti jututubade, foorumite ja uudisgruppide keel. Tekstide kogumine moodustab ainult ühe osa korpusetegemise tööst. Tekstikorpuse kasutatavuse seisukohalt on oluline, et tekstid oleksid ühtlaselt ja ühetaoliselt märgendatud, dokumenteeritud ning uurijatele takistusteta kättesaadavad. Ajalehtede puhul saab ühe programmi abil töödelda suuri tekstihulk!, väiksemate üksuste kaupa töödeldavate tekstide nagu nt. teadustekstid ja ilukirjandus puhul kulub ka korrektsele kujule viimiseks rohkem käsitsi-ja poolkäsitsitööd. Formaalselt korrektse kuju ali mõeldakse siinkohal kahte asja: 1) Tekstis on ainult teadaolevad sümbolid ja olemid; kõik nn täpitähed ja muud erisümbolid on esitatud ühtsel kujul.