"Riiklik programm: Eesti keeletehnoloogia" projekt EKT2
EKT2 "Eesti Wordnet'i täiendamine (1.01.2011−31.12.2014)", Heili Orav, Tartu Ülikool, Filosoofiateaduskond.
EKT2
Eesti Wordnet'i täiendamine
1.01.2011
31.12.2014
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH353 Leksikoloogia 6.2. Keeleteadus ja kirjandus80,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)20,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201145 000,00 EUR
01.01.2012−31.12.201237 000,00 EUR
01.01.2013−31.12.201338 600,00 EUR
01.01.2014−31.12.201438 600,00 EUR
159 200,00 EUR

Eestis on mõistelisi sõnastikke kaks: esimene Andrus Saareste „Eesti keele mõisteline sõnaraamat” (1958–1963) ja teine Tartu Ülikoolis koostatav uuema põlvkonna arvutitesaurus Eesti Wordnet. Eesti Wordnet kui keele leksikaal-semantiline andmebaas, kus on lisaks sõnade tähenduste eristamisele fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui ka arvutilingvistilisteks rakendusteks. Eri keelte wordnet-tüüpi leksikaal-semantilisi andmebaase on loodud üle viiekümne ning wordnet’id on loomuliku keele rakendustes kõige kasutatavamaid ressursse. Väärtuslikuks muudab Eesti Wordneti ka selle mitmekeelsus, sest on seotud EuroWordnet'iga (www.illc.uva.nl/EuroWordNet/), mille kaudu on Eesti Wordnetis olevad mõisted ühendatud ingliskeelse keeltevälise indeksi abil (Interlingual Index (ILI-link)) ka teiste keelte tesauruste mõistetega. Taotletav projekt on eelnenud programmi „Eesti keele keeletehnoloogiline tugi (2006-2010)“ projekti "TÜ eesti keele tesauruse (Eesti Wordnet'i) täiendamine" sisuline ja loogiline jätk. Eelmise riikliku programmi käigus suurenes tesaurus rohkem kui 27 tuhande mõiste võrra ja praeguse seisuga (veebruar 2011) on Eesti Wordnet'is ligi 43 tuhat mõistet, mis ikkagi katab eesti keele sõnavara suhteliselt poolikult ning on erinevate keeletehnoloogiliste rakenduste (nt ontoloogiate) jaoks väikesemahuline ressurss. Taotletava projekti eesmärgiks on Eesti Wordnet'i suurendamine ja täiendamine. Projekti lõpuks (2014. a.) plaanime jõuda vähemalt 70 000-mõistelise andmebaasini. Töö kulgeks nagu eelmiseski riiklikus programmis mitmesuunaliselt. Esiteks, suurendame sõnaliigiliselt adjektiivide ja adverbide hulka. Teiseks toimuks tesauruse täiendamine kitsaste valdkondade sõnavara kirjeldamise kaudu (nt isikuomadused, transport, kirjandusteaduse mõisted jne). Kolmandaks toimuks andmebaasi täiendamine sõnatähenduste ühestamise andmete põhjal. Ja neljandaks jätkaksime tesauruse automaatsete suurendamisvõimaluste otsimist (eelnenud projektis lisasime automaatselt -mine ning -ja-liitelisi nimisõnu). Projekti käigus näeme ka ette, et paralleelselt tesauruse suurendamisega tegeleme olemasolevate mõistete, nende semantiliste seoste ja ingliskeelsete vastete kontrollimise ning ühtlustamisega; andmebaasi valdkondliku liigendusega; andmebaasi ühtlustamisega vastavalt rahvusvahelistele standarditele (XML-kujule viimine); ILI-versiooni uuendamisega ning tesauruse kasutuslitsentsi ühtlustamine nii eestikeelsete keeleressurssidega (loodava keeleressursside keskuse raames) kui ka teiste keelte wordnet'idega (litsentsid vaadatavad nt http://www.vossen.info/). Eesti Wordnet'i saab kasutada kui inforikast elektroonilist leksikaal-semantilist andmebaasi, aga ka kui abivahendit sõnatähenduste ühestamisel, infootsisüsteemide osana, ontoloogiate tegemisel (nt Global WordNet Grid, kus erinevate keelte wordnetid jagavad u 5000 üldmõiste ontoloogiat, vt http://www.vossen.info/).

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Heili OravdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (1.00);EST / ENG01.01.2011−31.12.2013

Põhitäitjad (5)

IsikKraadTöökoht ja ametCVOsalemise periood
Lauri EesmaaTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2011−31.12.2013
Liisi PoolTöökoht puudubEST / ENG01.01.2011−31.12.2013
Sirli ZuppingdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (0.60);EST / ENG01.01.2011−31.12.2014
Piia TaremaadoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2011−01.01.2011
Kadri Varemagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2011−31.12.2014

Projektiga seotud tööjõud (12)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Ahti Lohkdoktorant0,301.01.2014−31.12.2014
Andres Karjusmagistrant0,201.01.2012−31.12.2013
Eleri Aedmaadoktorant0,401.01.2012−31.12.2014
Helen Türkdoktorant0,201.01.2012−31.12.2014
inglise filoloog001.01.2011−31.12.2013
Ingmar Jaskatudeng0,201.01.2011−31.12.2014
Kaisa Huntmagistrant0,201.01.2012−31.12.2013
Katrin Alekanddoktorant0,301.01.2012−31.12.2014
Maria Reiledoktorant0,301.01.2012−31.12.2014
Marju TaukarTallinna Ülikooli doktorant0,201.01.2012−31.12.2013
Riin Kirtspetsialist0,1101.01.2012−31.12.2013
Tene Viiburgdoktorant0,201.01.2014−31.12.2014
Projektid
Projekt
EKKTT09-62; "Eesti keele semantika ressursid ja vahendid"; Neeme Kahusk;
MMTAT11102; "META-NORD - Euroopa avatud lingvistilise infrastrukuuri Balti- ja Põhjamaade haru"; Kadri Vider;
SF0180056s08; "Keel ja tähendus: semantika ja grammatika kognitiivses perspektiivis"; Renate Pajusalu;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Orav, H.; Kerner, K.; Parm, S. (2011). Eesti Wordneti hetkeseisust. Keel ja Kirjandus, 2, 96−106.
Pedersen, Bolette Sandford; Borin, Lars; Forsberg, Markus; Linden, Krister; Orav, Heili; Rögnvaldsson, Eirikur (2012). Linking and Validating Nordic and Baltic Wordnets - A Multilingual Action in META-NORD. Proceedings of 6th International Global Wordnet Conference: 6th International Global Wordnet Conference, Matsue, Japan. Ed. Christiane Fellbaum, Piek Vossen. 254−259.
Lohk, A.; Vare, K.; Võhandu, L. (2012). Visual Study of Estonian Wordnet using Bipartite Graphs and Minimal Crossing algorithm. Proceedings of 6th International Global Wordnet Conference: 6th International Global Wordnet Conference. Matsue, Japan, 167−173.
Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep, Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur (2012). Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. Erelt, Mati; Mäearu, Sirje (Toim.). Emakeele Seltsi Aastaraamat (66−102).. Tallinn: TA Kirjastus.
Kahusk, Neeme; Orav, Heili; Vare, Kadri (2012). Cross-linking Experience of Estonian WordNet. Human Language Technologies – The Baltic Perspective: The Fifth International Conference on Human Language Technologies – The Baltic perspective. Tartu, Estonia, October 4-5, 2012. Ed. Arvi, Tavast; Kadri Muischnek; Mare, Koit. IOS Press, 96−102 [ilmumas].
Lohk, A.; Võhandu, L. (2012). Eesti wordnet'i struktuuri analüüsist. Eesti Rakenduslingvistika Ühingu aastaraamat, 8, 139−151.
Lohk, A.; Vare, K.; Võhandu, L. (2012). First steps in checking and comparing Princeton WordNet and Estonian Wordnet. Proceedings of the EACL 2012 Joint Workshop of LINGVIS & UNCLH: EACL 2012; April 23 - 24 2012; Avignon France. 25−29.
Pedersen, S. Bolette; Borin, Lars; Forsberg, Markus; Kahusk, Neeme; Lindén, Krister; Niemi, Jyrki; Nisbeth, Niklas; Nygaard, Lars; Orav, Heili; Rögnvaldsson, Hirkur; Seaton, Mitchel; Vider, Kadri; Voionmaa, Kaarlo (2013). Nordic and Baltic wordnets aligned and compared through “WordTies”. Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), NEALT Proceedings Series 16: Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013); Oslo University, Norway; May 22–24, 2013. Ed. Stephan Oepen, Kristin Hagen, Janne Bondi Johannesse. Linköping University Electronic Press, Linköpings universitet: Linköping University, 147−162. (Linköping Electronic Conference Proceedings).
Orav, Heili; Parm, Sirli (2014). Seitsmes "Global Wordnet" konverents. Keel ja Kirjandus, 5, 403−406.
Parm, Sirli; Orav, Heili (2014). Üle 65 500 eesti mõistega arvutisõnastik. .
Juhendamised
Juhendamised
Kadri Vare, doktorant, (juh) Heili Orav, Valdkonna-spetsiifilise ühetähenduslikkuse tõhusus sõnatähenduste ühestamisel, Tartu Ülikool.