"Eesti Teadusfondi uurimistoetus" projekt ETF5534
ETF5534 "Tähenduspõhise keeletöötluse ressursid ja töövahendid eesti keele jaoks (1.01.2003−31.12.2006)", Haldur Õim, Tartu Ülikool, Filosoofiateaduskond.
ETF5534
Tähenduspõhise keeletöötluse ressursid ja töövahendid eesti keele jaoks
Concept based resources and processing tools for the Estonian language
1.01.2003
31.12.2006
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH670 Ameerika keeled ja kirjandus, kreoolikeeled6.2. Keeleteadus ja kirjandus100,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2003−31.12.2006
PerioodSumma
01.01.2003−31.12.2003194 000,00 EEK (12 398,86 EUR)
01.01.2004−31.12.2004200 000,00 EEK (12 782,33 EUR)
01.01.2005−31.12.2005191 764,71 EEK (12 256,00 EUR)
01.01.2006−31.12.2006195 600,00 EEK (12 501,12 EUR)
49 938,31 EUR

Käesoleva grandi põhieesmärk on kujundada süstemaatiline pilt tähenduspõhistest keeletöötluse suundadest ja vahenditest ning nende poolt esitatavatest nõuetest, rakendatuna eesti keelele. Tähenduspõhine (concept based) lähenemine keeletöötlusele on keeletehnoloogias viimastel aastatel väga kiiresti arenenud, selle raames on kujunenud täiesti uued suhted keeletehnoloogia ja teoreetilise keeleteaduse vahel. On tekkinud vajadus neist arengusuundadest ülevaade saada ja koostada programm nende rakendamiseks eesti keele arvutitöötluses. Teiseks eesmärgiks on arendada konkreetseid uurimis- ja arendustöid valdkondades, mis on ette teada olevalt tähenduspõhise lähenemise aluseks: 1, semantiline kirjeldussüsteem (metakeel) - semantilised kategooriad (ontoloogia), nende seosed; 2. semantika ja süntaksi seosed (süntaktiliste konstruktsioonide semantika); 3. sõnaliikide semantika; 4. semantiline ühestamine (olemasoleva programmi täiustamine, alternatiivsete programmide katsetamine). Need tööd eeldavad järgmiste olemasolevate keeleressursside olulist edasiarendamist: 1) semantiline andmebaas (tesaurus, wordnet) - täiendatud vähemalt 30 000 üksuseni, 2) semantiliselt ühestatud tekstikorpus (ühestatud nii nimi-, tegu-, kui ka omadussõnad) - täiendatud 100000 üksuseni.
The main goal of the present grant is to formulate a systematic overview of recent trends of development and new tools of concept-based language processing, and their requirements as applied to the Estonian language. The concept-based approach to language processing has undergone a very rapid progress in recent years and as its result a quite new situation in the relationship between language technology and theoretical linguistics has arised. This has caused a need to get an overwiev of these developments and to create a programme for their application in the Estonian language processing. The second goal is to carry out concrete research in areas which in any case form the basis of concept-based language processing: 1. semantic metalanguage (ontology): categories, their relationships; 2. relationship between syntax and semantics (semantics of syntactic constructions); 3. semantics of word classes (e.g. verbs, adjectives); 4. word sense disambiguation programs. These tasks presuppose remarkable development of the following excisting semantic resources of Estonian: 1) semantic database (wordnet): at least to 30 000 entries; 2) semantically disambiguated text corpus - at least to 100 000 words.