"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT07-21
EKKTT07-21 "TÜ eesti keele tesauruse (eesti wordneti) täiendamine (1.01.2007−31.12.2010)", Heili Orav, Tartu Ülikool, Filosoofiateaduskond.
EKKTT07-21
TÜ eesti keele tesauruse (eesti wordneti) täiendamine
1.01.2007
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH353 Leksikoloogia 6.2. Keeleteadus ja kirjandus80,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)20,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2007−31.12.2010
PerioodSumma
01.01.2007−31.12.2007240 000,00 EEK (15 338,80 EUR)
01.01.2008−31.12.2008390 000,00 EEK (24 925,54 EUR)
01.01.2009−31.12.2009483 674,00 EEK (30 912,40 EUR)
01.01.2010−31.12.2010450 000,00 EEK (28 760,24 EUR)
99 936,98 EUR

Wordnet-tüüpi tesaurus kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid mõisteliselt sisuseoseid (semantilisi seoseid) pidi. Arvutis eksisteerib tesaurus andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta. Wordnet-tüüpi tesauruseid kui leksikaal-semantilisi andmebaase on maailmas loodud erinevate keelte jaoks 47 (vt http://www.globalwordnet.org/gwa/wordnet_table.htm) ja neid luuakse veelgi, kuna tegemist on väärtusliku keeletehnoloogilise ressursiga. Keele leksikaal-semantiline andmebaas, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui rakendusteks nagu sisupõhine infootsing, automaatne refereerimine, masintõlge, keeleõpe. Eesti keele tesauruse loomine käivitati 1998 aastal EuroWordNeti projekti (http://www.illc.uva.nl/EuroWordNet/) käigus, kus samade põhimõtete järgi koostati 8 erineva keele tesaurused. Eesti wordnetis (EstWN, vt http://www.cl.ut.ee/ressursid/teksaurus/) on praeguse seisuga (veebruar 2007) u 15 500 mõistet (s.o u 18 000 sõna: erinevaid nimisõnu on 9661, verbe 3798, adjektiive 540, pärisnimesid 470). Tähendusüksuste vahel kehtestatakse 45 erinevat semantilist seost, nagu alam-/ülemmõisted, antonüümia, osa-terviku suhe jms. Eestikeelsed mõisted on seotud ka nende inglisekeelsete vastetega. EstWN koostamise töid tehti ka pärast EuroWordNeti projekti lõppu, aga kuna rahastamiseks pole olnud omaette projekti, siis on töö soiku jäänud. Siiani läbitöötatud sõnavara maht on liiga väike, et seda kasutada praktilistes keeletehnoloogilistes rakendustes. Praktiliste rakenduste jaoks peaks leksikaal-semantiline andmebaas sisaldama vähemalt 50 000 mõistet. Taotletava projekti eesmärgiks on andmebaasi laiendamine ja täiendamine. Projekti lõpuks (2010.a.) prognoosime tesaurusesse vähemalt 25 000 uut mõistet (arvestusega, et täiskohaga töötaja sisestab aastas u 1000-2000 uut mõistet koos selle semantiliste seostega). Töö kulgeks mitmesuunaliselt. Esiteks, sõnaliigiliselt tuleb lisada adjektiive ja adverbe (eesti keeles võiks adverbide all mõelda ka kaassõnu, kuigi inglise keeles prepositsioone WordNetis ei käsitleta). Teiseks võiks täiendamine toimuda kitsaste valdkondade üksikasjaliku kirjeldamise kaudu (nt transport, isiksuseomadused, liikumine jms). Ja kolmandaks toimuks andmebaasi täiendamine sõnatähenduste ühestamise andmete põhjal (sõnatähenduste ühestamisega tegeleti ETF grandis 5534 ja riiklikus programmis "Eesti keel ja rahvuskultuur" 2002-2003).

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Heili OravdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (1.00);EST / ENG01.01.2007−31.12.2009

Põhitäitjad (7)

IsikKraadTöökoht ja ametCVOsalemise periood
Lauri EesmaaTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2007−31.12.2010
Ingmar JaskaEST / ENG01.06.2009−31.12.2010
Liisi PoolEST / ENG01.03.2010−31.12.2010
Sirli ZuppingdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut; spetsialist (1.00);EST / ENG01.09.2007−31.12.2010
Piia TaremaadoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2008−31.12.2008
Kadri Varemagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2007−31.12.2010
Haldur ÕimdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond; erakorraline vanemteadur (1.00);EST / ENG01.09.2007−31.12.2008

Projektiga seotud tööjõud (13)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Erki Liba0,201.01.2008−31.12.2009
Ingmar Jaska0,101.01.2008−31.12.2010
Kadri HaugasInternational Language Services OÜõpetaja0,1101.01.2008−31.12.2009
Lauri Eesmaa0,501.01.2007−31.12.2009
Liisi Pool0,501.01.2010−31.12.2009
Mari Talvik0,101.01.2010−31.12.2010
Maria Koplimets0,201.01.2008−31.12.2010
Nele Salveste0,101.01.2007−31.12.2009
Nele Salvestespetsialist0,20,2501.01.2007−31.12.2010
Olga-Anniki Villem0,101.01.2010−31.12.2010
Piia Taremaa0,101.01.2008−31.12.2010
Piia Taremaa0,101.01.2010−31.12.2010
Urve Talvikspetsialist00,801.01.2007−31.12.2008
Projektid
Projekt
EKKTT06-11; "Lihtlause semantiline analüüs"; Haldur Õim;
EKKTT09-62; "Eesti keele semantika ressursid ja vahendid"; Neeme Kahusk;
EKKTT09-66; "Nutika süvaveebi- ja veebiressursse kombineeriva infootsisüsteemi prototüüp"; Peep Küngas;
SF0180056s08; "Keel ja tähendus: semantika ja grammatika kognitiivses perspektiivis"; Renate Pajusalu;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Orav, H. (2005). Lexical Knowledge of Personality Traits. Proceedings of the Third International WordNet Conference: Third International WordNet Conference; Jeju Island, Korea; January 22 – 26, 2006. Ed. Sojka, P.; Key-Sun Choi; Fellbaum, Ch.; Vossen, P. Masaryk University in Brno, 239−244.
Orav, Heili (2006). Isiksuseomaduste sõnavara semantika eesti keeles. (Doktoritöö, Tartu Ülikool). Tartu: Tartu Ülikooli Kirjastus.
Orav, Heili; Vider, Kadri (2005). Estonian wordnet and Lexicography. In: H. Gottlieb, J. E. Mogensen, A. Zettersten (Ed.). Symposium on Lexicography XI. Proceedings of the Eleventh International Symposium on Lexicography. May 2-4, 2002 at the University of Copenhagen. Ed. by H. Gottlieb, J.E. Mogensen and A. Zettersten. (549−555).. Tübingen: Max Niemeyer. (Lexicographica. Series Maior; 115).
Orav, H.; Vider, K.; Kahusk, N.; Parm, S. (2007). Estonian WordNet: Nowadays. Proceedings of the Fourth Global WordNet Conference: GWC 2008; Szeged, Hungary; January 22-25, 2008. Ed. Tanacs, A.; Csendes, D.; Vincze, V.; Fellbaum, Ch.; Vossen, P. 334−338.
Kahusk, N.; Kerner, K.; Orav, H. (2008). Toward Estonian Ontology. LREC 2008 Proceedings: LREC 2008, Marrakesh; Maroko; 26. mai - 1. juuni 2008. Ed. Oltramari, A. ; Prevot, L.; Huang, C.-R.; Buitelaar, P.; Vossen, P. Elite Imprimerie, 20−24.
Kahusk, Neeme; Kerner, Kadri; Vider, Kadri (2010). Enriching Estonian WordNet with Derivations and Semantic Relations. Baltic HLT Proceedings, 219: Human Language Technologies — the Baltic Perspective; Riga, Latvia; October 7–8, 2010. IOS Press, 195−200. (Frontiers in Artificial Intelligence and Applications).10.3233/978-1-60750-641-6-195.
Orav, Heili; Õim, Haldur; Kerner, Kadri; Kahusk, Neeme (2010). Main trends in semantic-research in Estonian language technology. Baltic HLT Proceedings: Human Language Technologies — the Baltic Perspective; Riga, Latvia; October 7–8, 2010. IOS Press, 201−207. (Frontiers in Artificial Intelligence and Applications).10.3233/978-1-60750-641-6-201.
Kerner, Kadri; Orav, Heili; Parm, Sirli (2010). Growth and Revision of Estonian WordNet. Principles, Construction and Application of Multilingual Wordnets. Proceeding of the 5th Global Wordnet Conference: 5th Global Wordnet Conference; Mumbai, India; 31.jaanuar-4.veebruar 2010. Ed. Bhattacharyya, P.; Fellbaum, Ch.; Vossen, P. Mumbai, India: Narosa Publishing House, 198−202.
Kerner, Kadri; Orav, Heili; Parm, Sirli (2010). Semantic Relations of Adjectives and Adverbs in Estonian WordNet. LREC 2010 Proceedings: LREC 2010, Malta, Valetta, 17.-23. mai 2010. ELRA, 33−37.
Orav, Heili; Vider, Kadri (2002). Kas tesaurus ja tekstid lähevad kasutuses kokku? Pajusalu, Renate; Hennoste, Tiit (Toim.). Tähendusepüüdja. Pühendusteos professor Haldur Õimu 60. sünnipäevaks (297−303).. Tartu: Tartu University Press. (TÜ üldkeeleteaduse õppetooli toimetised; 3).
Orav, Heili; Vider, Kadri (2001). Estonian WordNet. Congressus Nonus Internationalis Fenno-Ugristarum. 7.-13.8.2000 Tartu. Pars V. Dissertationes sectionum: Linguistica II., V: Congressus Nonus Internationalis Fenno-Ugristarum; Tartu; 7-13 August, 2000. Ed. Seilenthal, T.; Nurk, A.; Palo, T. Tartu: Eesti Fennougristide Komitee, 490−497.
Juhendamised
Juhendamised
Kadri Vare, doktorant, (juh) Heili Orav, Valdkonna-spetsiifilise ühetähenduslikkuse tõhusus sõnatähenduste ühestamisel, Tartu Ülikool.
Sirli Zupping, magistrikraad (teaduskraad), 2007, (juh) Renate Pajusalu, "Partiklite veel, juba, alles, jälle tähendused eesti kirjakeeles", Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut.