See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)" projekt EKKTT10-74
EKKTT10-74 (EKKTT10-74) "Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine (1.01.2010−31.12.2010)", Kadri Muischnek, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT10-74
Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine
1.01.2010
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
PerioodSumma
01.01.2010−31.12.2010550 000,00 EEK (35 151,41 EUR)
35 151,41 EUR

Korpusekogumise projekt "Eesti keele koondkorpus" lõppes 2009. aastal. Selle tulemusena on valminud ligi 250 miljoni sõnaline avalikult vabalt kasutatav kirjaliku eesti keele kogu; vt www.cl.ut.ee/korpused. Käesolev projekt ühendab endas mitut ülesannet, mille ühiseks eesmärgiks on Koondkorpuse täiustamine ja tema kasutusvõimaluste laiendamine. Need planeeritavad ülesanded on järgmised: 1) Koondkorpust koguti küllaltki pika aja jooksul ja sellest tingitud ebaühtlused märgenduses ja kodeeringutes ühtlustati projekti viimasel, 2009. aastal. Koondkorpuse koostamise aastate jooksul on aga muutunud ka standardid; kõige levinumaks märgenduskeeleks on meie korpuses kasutatava SGML asemel saanud XML. Samuti on meie korpuses kasutatava ASCII kooditabeli + olemite (entities) süsteemi asemel standardkooditabeliks saanud UTF-8. Projekti esimeseks ülesandeks ongi planeeritud üleminek UTF-8-le ja XML-keelele. Terve korpuse teisendamine ühelt formaalselt kujult teisele on asi, mida ilmselt tuleb ühe korpusega teha korduvalt, sest paraku tekivad aina uued standardid ja neile toetuv tarkvara. Seega võiks meie projekti kogemus sellisest teisendamisest olla väärtuslik ka keeletehnoloogilise oskusteabena. 2) Koondkorpusele saab esitada päringuid sõnavormi, stringi ning regulaaravaldise põhjal (www.cl.ut.ee/korpused/kasutajaliides); korpuse morfoloogiliselt märgendatud variandile saab Keeleveebis esitada päringuid ka algvormi ning grammatiliste kategooriate alusel (www.keeleveeb.ee). Vastuseks päringule saab päritavat stringi sisaldava lause, st konkordantsi. Korpuste kasutamisel lingvistilise materjali allikana on aga levinud veel teinegi materjali hankimise ja esitamise viis, nimelt kollokatsioonide arvutamine. Kollokatsiooni all mõeldakse siin selliseid sõnavorme (või ka lemmasid), mis esinevad tekstis koos (st esinevad üksteise naabruses) sagedamini kui võiks eeldada nende eraldisesinemise sageduste põhjal. Tüüpilised kollokatsioonid on näiteks eesti keele ühendverbid. Käesoleva projekti raames tahame Koondkorpuse kasutajaliidesele lisada kollokatsioonide leidja esialgse versiooni. Selleks on vaja ära teha teoreetiline eeltöö. Nimelt on praegu teada üle 80 erineva kollokatsioonide arvutamise aluseks oleva sõnadevahelise seose tugevuse mõõdiku (vt nt http://ufal.mff.cuni.cz/~pecina/publications/acl-2005.pdf). Nende hulgast just eesti keelele ja just nendele kollokaatidele (tekstisõnad vs algvormid; erinevatesse sõnaliikidesse kuuluvad kollokaadid) kõige sobivamate väljavalimine on omaette ülesanne, kusjuures arvestada tuleb ka seose tugevuse mõõdiku arvutil realiseerimise lihtsust/keerukust ja meetodi läbipaistvust lingvisti jaoks. 3) Koondkorpuses on 22 miljonit sõna nn uue meedia keelekasutust (jututoad, kommentaarid, uudisgrupid, foorumid). uue meedia tekste on plaanis ka juurde koguda, vt järgmine punkt. Kui muud Koondkorpuse tekstid on automaatselt morfoloogiliselt märgendatud ja tänu sellele saab neile Keeleveebis esitada päringuid algvormi ja grammatiliuse kategooria põhjal, siis uue meedia tekste praeguseks morfoloogiliselt märgendatud ei ole, kuna nende tekstide leksika, ortograafia ja kohati ka morfoloogia on normeeritud kirjakeelest niivõrd erinevad, et kirjakeele analüüsiks loodud morfoloogiline analüsaator ja ühestaja t3mesta teeb nende analüüsil liiga palju vigu. Seega tuleb analüüsida uue meedia leksikat, ortograafiat ja morfoloogiat just automaatse morfoloogilise analüüsi vajadustest lähtuvalt. 4) Eelpoolnimetatud uue meedia keelekasutus on hetkel "kuum teema" nii keeleuurijate kui ka keeletehnoloogide jaoks. Seetõttu oleks mõistlik täiendada koondkorpust veel mõne uue meedia tekstiliigi, näiteks blogide tekstidega. Blogide kogumise poolt räägid seegi, et neid on võimalik koguda automaatselt, nt veebilehelt http://blog.tr.ee/ alustades. Samas on blogide korpuse kujule viimine küllaltki keerukas ülesanne, sest nad on oma algselt märgenduselt erinevad ja sisaldavad palju mitte-tekstilist materjali. Seetõttu ei julge ainult üheaastases projektis lubada blogide allkorpuse valmistegemist, kuid alustama peaks sellega küll.