"Eesti Teadusfondi uurimistoetus" projekt ETF5534
ETF5534 "Tähenduspõhise keeletöötluse ressursid ja töövahendid eesti keele jaoks (1.01.2003−31.12.2006)", Haldur Õim, Tartu Ülikool, Filosoofiateaduskond.
ETF5534
Tähenduspõhise keeletöötluse ressursid ja töövahendid eesti keele jaoks
Concept based resources and processing tools for the Estonian language
1.01.2003
31.12.2006
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH670 Ameerika keeled ja kirjandus, kreoolikeeled6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2003−31.12.2006
PerioodSumma
01.01.2003−31.12.2003194 000,00 EEK (12 398,86 EUR)
01.01.2004−31.12.2004200 000,00 EEK (12 782,33 EUR)
01.01.2005−31.12.2005191 764,71 EEK (12 256,00 EUR)
01.01.2006−31.12.2006195 600,00 EEK (12 501,12 EUR)
49 938,31 EUR
0,00

Käesoleva grandi põhieesmärk on kujundada süstemaatiline pilt tähenduspõhistest keeletöötluse suundadest ja vahenditest ning nende poolt esitatavatest nõuetest, rakendatuna eesti keelele. Tähenduspõhine (concept based) lähenemine keeletöötlusele on keeletehnoloogias viimastel aastatel väga kiiresti arenenud, selle raames on kujunenud täiesti uued suhted keeletehnoloogia ja teoreetilise keeleteaduse vahel. On tekkinud vajadus neist arengusuundadest ülevaade saada ja koostada programm nende rakendamiseks eesti keele arvutitöötluses. Teiseks eesmärgiks on arendada konkreetseid uurimis- ja arendustöid valdkondades, mis on ette teada olevalt tähenduspõhise lähenemise aluseks: 1, semantiline kirjeldussüsteem (metakeel) - semantilised kategooriad (ontoloogia), nende seosed; 2. semantika ja süntaksi seosed (süntaktiliste konstruktsioonide semantika); 3. sõnaliikide semantika; 4. semantiline ühestamine (olemasoleva programmi täiustamine, alternatiivsete programmide katsetamine). Need tööd eeldavad järgmiste olemasolevate keeleressursside olulist edasiarendamist: 1) semantiline andmebaas (tesaurus, wordnet) - täiendatud vähemalt 30 000 üksuseni, 2) semantiliselt ühestatud tekstikorpus (ühestatud nii nimi-, tegu-, kui ka omadussõnad) - täiendatud 100000 üksuseni.
The main goal of the present grant is to formulate a systematic overview of recent trends of development and new tools of concept-based language processing, and their requirements as applied to the Estonian language. The concept-based approach to language processing has undergone a very rapid progress in recent years and as its result a quite new situation in the relationship between language technology and theoretical linguistics has arised. This has caused a need to get an overwiev of these developments and to create a programme for their application in the Estonian language processing. The second goal is to carry out concrete research in areas which in any case form the basis of concept-based language processing: 1. semantic metalanguage (ontology): categories, their relationships; 2. relationship between syntax and semantics (semantics of syntactic constructions); 3. semantics of word classes (e.g. verbs, adjectives); 4. word sense disambiguation programs. These tasks presuppose remarkable development of the following excisting semantic resources of Estonian: 1) semantic database (wordnet): at least to 30 000 entries; 2) semantically disambiguated text corpus - at least to 100 000 words.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Haldur ÕimdoktorikraadEST / ENG01.01.2003−31.12.2006

Põhitäitjad (6)

IsikKraadTöökoht ja ametCVOsalemise periood
Kaarel KaljuranddoktorikraadEST / ENG01.01.2003−31.12.2006
Helen Nigolmagistrikraad (teaduskraad)EST / ENG01.01.2006−31.12.2006
Heili OravdoktorikraadTartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond, Üldkeeleteaduse õppetool, arvutilingvistika teadur (0,50)EST / ENG01.01.2003−31.12.2006
Tarmo TruuEST / ENG01.01.2005−31.12.2006
Kadri Varemagistrikraad (teaduskraad)EST / ENG01.01.2005−31.12.2006
Kadri Vidermagistrikraadarvutilingvistika teadurEST / ENG01.01.2003−31.12.2006
Publikatsioonid
Publikatsioonid
Kahusk, N.; Vider, K. (2006). Semantic Relations in Glosses and Explanations: Do They Help? Third International Wordnet Conference, GWC 2006: Third International Wordnet Conference; Jeju Island, Korea; 22-26 January 2006. Ed. Sojka, P.; Choi, K.-S.; Fellbaum, Ch.; Vossen, P. 191−198.
Kerner, K.; Vider, K. (2005). Word sense disambiguation corpus of Estonian. The Second Baltic Conference on Human Language Technologies : April 4-5, 2005, Tallinn, Estonia : proceedings. 143−148.
Kahusk, N.; Vider, K. (2005). TEKsaurus - the Estonian WordNet online. The Second Baltic Conference on Human Language Technologies : April 4-5, 2005, Tallinn, Estonia. 273−278.
Vider, K.; Orav, H. (2003). Concerning the difference between a conception and its application in the case of the Estonian wordnet. Proceedings of the second international wordnet conference: Second international wordnet conference; Brno; 2004. Ed. Sojka, P.; Pala, K.; Smrz, P.; Fellbaum, Ch.; Vossen, P. Brno, 285−290.
Orav, H. (2005). Lexical Knowledge of Personality Traits. Proceedings of the Third International WordNet Conference: Third International WordNet Conference; Jeju Island, Korea; January 22 – 26, 2006. Ed. Sojka, P.; Key-Sun Choi; Fellbaum, Ch.; Vossen, P. Masaryk University in Brno, 239−244.
Vider, K.; Kahusk, N. (2004). HLT makes sense in Word Sense Disambiguation of Estonian. In: The First Baltic Conference Human Language Technologies: The Baltic Perspective. Commission of the Official Language at the Chancellery of the President of Latvia (174−178).. Riga: puudub.
Orav, Heili; Vider, Kadri (2006). Millist leksikoni vajab arvuti tähenduse mõistmiseks? Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (85−96).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised).
Kerner, K; Vider, K; Kahusk, N. (2006). Sõnatähendused ja nende ühestamine tekstides. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (97−104).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised).
Koit, M.; Pajusalu, R.; Õim, H. (Toim.) (2006). Keel ja arvuti. Tartu: Tartu Ülikooli Kirjastus.
Juhendamised
Juhendamised
Heili Orav, doktorikraad, 2006, (juh) Urmas Sutrop, Iseloomujoonte semantika eesti keeles. 1. juhendaja Haldur Õim, Tartu Ülikool.