"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT07-21
EKKTT07-21 "TÜ eesti keele tesauruse (eesti wordneti) täiendamine (1.01.2007−31.12.2010)", Heili Orav, Tartu Ülikool, Filosoofiateaduskond.
EKKTT07-21
TÜ eesti keele tesauruse (eesti wordneti) täiendamine
1.01.2007
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH353 Leksikoloogia 6.2. Keeleteadus ja kirjandus80,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)20,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2007−31.12.2010
PerioodSumma
01.01.2007−31.12.2007240 000,00 EEK (15 338,80 EUR)
01.01.2008−31.12.2008390 000,00 EEK (24 925,54 EUR)
01.01.2009−31.12.2009483 674,00 EEK (30 912,40 EUR)
01.01.2010−31.12.2010450 000,00 EEK (28 760,24 EUR)
99 936,98 EUR

Wordnet-tüüpi tesaurus kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid mõisteliselt sisuseoseid (semantilisi seoseid) pidi. Arvutis eksisteerib tesaurus andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta. Wordnet-tüüpi tesauruseid kui leksikaal-semantilisi andmebaase on maailmas loodud erinevate keelte jaoks 47 (vt http://www.globalwordnet.org/gwa/wordnet_table.htm) ja neid luuakse veelgi, kuna tegemist on väärtusliku keeletehnoloogilise ressursiga. Keele leksikaal-semantiline andmebaas, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui rakendusteks nagu sisupõhine infootsing, automaatne refereerimine, masintõlge, keeleõpe. Eesti keele tesauruse loomine käivitati 1998 aastal EuroWordNeti projekti (http://www.illc.uva.nl/EuroWordNet/) käigus, kus samade põhimõtete järgi koostati 8 erineva keele tesaurused. Eesti wordnetis (EstWN, vt http://www.cl.ut.ee/ressursid/teksaurus/) on praeguse seisuga (veebruar 2007) u 15 500 mõistet (s.o u 18 000 sõna: erinevaid nimisõnu on 9661, verbe 3798, adjektiive 540, pärisnimesid 470). Tähendusüksuste vahel kehtestatakse 45 erinevat semantilist seost, nagu alam-/ülemmõisted, antonüümia, osa-terviku suhe jms. Eestikeelsed mõisted on seotud ka nende inglisekeelsete vastetega. EstWN koostamise töid tehti ka pärast EuroWordNeti projekti lõppu, aga kuna rahastamiseks pole olnud omaette projekti, siis on töö soiku jäänud. Siiani läbitöötatud sõnavara maht on liiga väike, et seda kasutada praktilistes keeletehnoloogilistes rakendustes. Praktiliste rakenduste jaoks peaks leksikaal-semantiline andmebaas sisaldama vähemalt 50 000 mõistet. Taotletava projekti eesmärgiks on andmebaasi laiendamine ja täiendamine. Projekti lõpuks (2010.a.) prognoosime tesaurusesse vähemalt 25 000 uut mõistet (arvestusega, et täiskohaga töötaja sisestab aastas u 1000-2000 uut mõistet koos selle semantiliste seostega). Töö kulgeks mitmesuunaliselt. Esiteks, sõnaliigiliselt tuleb lisada adjektiive ja adverbe (eesti keeles võiks adverbide all mõelda ka kaassõnu, kuigi inglise keeles prepositsioone WordNetis ei käsitleta). Teiseks võiks täiendamine toimuda kitsaste valdkondade üksikasjaliku kirjeldamise kaudu (nt transport, isiksuseomadused, liikumine jms). Ja kolmandaks toimuks andmebaasi täiendamine sõnatähenduste ühestamise andmete põhjal (sõnatähenduste ühestamisega tegeleti ETF grandis 5534 ja riiklikus programmis "Eesti keel ja rahvuskultuur" 2002-2003).