"Riiklik programm: Eesti keeletehnoloogia" projekt EKT2
EKT2 "Eesti Wordnet'i täiendamine (1.01.2011−31.12.2014)", Heili Orav, Tartu Ülikool, Filosoofiateaduskond.
EKT2
Eesti Wordnet'i täiendamine
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH353 Leksikoloogia 6.2. Keeleteadus ja kirjandus80,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)20,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201145 000,00 EUR
01.01.2012−31.12.201237 000,00 EUR
01.01.2013−31.12.201338 600,00 EUR
01.01.2014−31.12.201438 600,00 EUR
159 200,00 EUR

Eestis on mõistelisi sõnastikke kaks: esimene Andrus Saareste „Eesti keele mõisteline sõnaraamat” (1958–1963) ja teine Tartu Ülikoolis koostatav uuema põlvkonna arvutitesaurus Eesti Wordnet. Eesti Wordnet kui keele leksikaal-semantiline andmebaas, kus on lisaks sõnade tähenduste eristamisele fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui ka arvutilingvistilisteks rakendusteks. Eri keelte wordnet-tüüpi leksikaal-semantilisi andmebaase on loodud üle viiekümne ning wordnet’id on loomuliku keele rakendustes kõige kasutatavamaid ressursse. Väärtuslikuks muudab Eesti Wordneti ka selle mitmekeelsus, sest on seotud EuroWordnet'iga (www.illc.uva.nl/EuroWordNet/), mille kaudu on Eesti Wordnetis olevad mõisted ühendatud ingliskeelse keeltevälise indeksi abil (Interlingual Index (ILI-link)) ka teiste keelte tesauruste mõistetega. Taotletav projekt on eelnenud programmi „Eesti keele keeletehnoloogiline tugi (2006-2010)“ projekti "TÜ eesti keele tesauruse (Eesti Wordnet'i) täiendamine" sisuline ja loogiline jätk. Eelmise riikliku programmi käigus suurenes tesaurus rohkem kui 27 tuhande mõiste võrra ja praeguse seisuga (veebruar 2011) on Eesti Wordnet'is ligi 43 tuhat mõistet, mis ikkagi katab eesti keele sõnavara suhteliselt poolikult ning on erinevate keeletehnoloogiliste rakenduste (nt ontoloogiate) jaoks väikesemahuline ressurss. Taotletava projekti eesmärgiks on Eesti Wordnet'i suurendamine ja täiendamine. Projekti lõpuks (2014. a.) plaanime jõuda vähemalt 70 000-mõistelise andmebaasini. Töö kulgeks nagu eelmiseski riiklikus programmis mitmesuunaliselt. Esiteks, suurendame sõnaliigiliselt adjektiivide ja adverbide hulka. Teiseks toimuks tesauruse täiendamine kitsaste valdkondade sõnavara kirjeldamise kaudu (nt isikuomadused, transport, kirjandusteaduse mõisted jne). Kolmandaks toimuks andmebaasi täiendamine sõnatähenduste ühestamise andmete põhjal. Ja neljandaks jätkaksime tesauruse automaatsete suurendamisvõimaluste otsimist (eelnenud projektis lisasime automaatselt -mine ning -ja-liitelisi nimisõnu). Projekti käigus näeme ka ette, et paralleelselt tesauruse suurendamisega tegeleme olemasolevate mõistete, nende semantiliste seoste ja ingliskeelsete vastete kontrollimise ning ühtlustamisega; andmebaasi valdkondliku liigendusega; andmebaasi ühtlustamisega vastavalt rahvusvahelistele standarditele (XML-kujule viimine); ILI-versiooni uuendamisega ning tesauruse kasutuslitsentsi ühtlustamine nii eestikeelsete keeleressurssidega (loodava keeleressursside keskuse raames) kui ka teiste keelte wordnet'idega (litsentsid vaadatavad nt http://www.vossen.info/). Eesti Wordnet'i saab kasutada kui inforikast elektroonilist leksikaal-semantilist andmebaasi, aga ka kui abivahendit sõnatähenduste ühestamisel, infootsisüsteemide osana, ontoloogiate tegemisel (nt Global WordNet Grid, kus erinevate keelte wordnetid jagavad u 5000 üldmõiste ontoloogiat, vt http://www.vossen.info/).