"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-62
EKKTT09-62 "Eesti keele semantika ressursid ja vahendid (1.01.2009−31.12.2010)", Neeme Kahusk, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-62
Eesti keele semantika ressursid ja vahendid
1.01.2009
31.12.2010
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2009−31.12.2009305 825,00 EEK (19 545,78 EUR)
01.01.2010−31.12.2010270 000,00 EEK (17 256,15 EUR)
36 801,93 EUR

1. Korrastada semantiliselt ühestatud ja märgendatud (ühestatud sõnatähendustega) korpus ja suurendada seda 500 000 sõnani (Riikliku programmi alaeesmärk 2.2.4). Semantiliselt ühestatud korpus -- täpsemalt ühestatud sõnatähendustega korpus (ÜST), sest semantiline ühestamine on laiem mõiste -- sisaldab praegu 100 000 sõna. Sõnatähenduste ühestamist on tehtud mitmes järgus ja kasutatud on erinevaid eesti wordneti versioone. Olemasolev osa ÜST korpusest viiakse vastavusse viimase versiooniga eesti wordnetist ja töötatatakse välja vahendid (tarkvara koos kasutamisjuhendiga) kindlustamaks ÜST korpuse vastavust viimasele wordneti versioonile. Ühestatud sõnatähendustega korpust täiendatakse, suurendades seda 500 000 sõnani. 2. Luua sõnatähenduste käsitsi ühestamist hõlbustav tarkvara (Riikliku programmi alaeesmärk 2.1.9) Olemasolev osa ÜST korpusest on loodud ilma spetsiaalset tarkvara kasutamata: leksikograafid redigeerivad puhast teksti, kirjutades sinna vajalikku kohta sõnatähenduse numbri. Selline meetod on suhteliselt töömahukas ja soodustab vigade teket (näiteks kirjutatakse tähendusnuber valesse kohta). Projekti käigus luuakse sõnatähenduste ühestamist hõlbustav tarkvara, mis võimaldaks (1) valida ühestatavat faili (2)valida kasutatavat wordneti versiooni (3) leida ühestatavad sõnad failist (4) omistada ühestatavale sõnale wordnetis leiduv tähendus. 3. Luua leksikaal-semantilise andmebaasi loomist ja haldamist hõlbustav tarkvara (Riikliku programmi alaeesmärk 2.2.12). Eesti wordneti tegemiseks kasutatakse praegu programmi "Polaris", mille toetus on lõppenud seoses tootjafirma pankrotistumisega 1999. aastal. "Polarisega" eri aegadel ja erinevates arvutites tehtud wordneti kirjetes on kasutatud erinevaid kooditabeleid, see teeb koondbaasi kokkuajamise raskeks. "Polaris" töötab ainult Windowsi platvormil, tema edasine kasutamine tulevaste Windowsi versioonidega ei ole garanteeritud. Konfigureerimisvõimaluste piiratuse ja lähtekoodi puudumise tõttu ei ole võimalik lisada uusi semantilisi suhteid ega muud informatsiooni, mis töö käigus võib vajalikuks osutuda. Käesoleva projekti käigus luuakse programm, mis täidaks samu funktsioone, mis "Polaris", kuid oleks (1) avatud lähtekoodiga (2) kasutatav mitmel platvormil (3) ulatuslikumalt konfigureeritav. 4. Üldontoloogia ja valdkonnaontoloogiate-põhise mitmekeelse infootsingu raamistiku, ressursside ja rakenduste loomine (Riikliku programmi alaeesmärgid 2.1.6 ja 2.1.13) Üldontoloogia ja valdkonnaontoloogiate-põhise mitmekeelse infootsingu raamistiku, ressursside ja rakenduste tulemid on kasutatavad semantilistes otsimootorites, infoportaalides (nt neti.ee, google.ee) kui ka mitmekeelsust nõudvates valdkonnaspetsiifilistes infootsingutes (nt turismivaldkonnas: visitestonia.com, tallinn2011 kultuuripealinna raames, expo2010 eestit tutvustavas portaalis; nt euroopa liidu infosüsteemide semantilise liidestamise programmis IDABC, semic.eu jt). Selle ülesande täitmiseks (1) valitakse sobiv ontoloogiakeel, (2) luuakse ontoloogia ressursid (üldontoloogia ja mõned valdkonna-ontoloogiad) (3) luuakse ontoloogiat kasutav näidisrakendus. Kõik projekti käigus loodud tarkvara väljastatakse GNU GPL litsensiga (avalikuks kasutamiseks koos lähtekoodiga). STÜ korpus väljastatakse XML märgendusega. Leksikaal-semantilise andmebaasi tarkvara kasutab EuroWordNeti import-eksportformaati, mis vastab GEDCOM standardile ja on lihtsalt teisendatav XML kujule. Seda programmi saavad kasutada kõik, kes tegelevad wordneti arendamisega Eurowordneti formaadis. Ontoloogiarakendus väljastatakse ka avalikult kasutatava teenusena.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Neeme Kahuskmagistrikraad (teaduskraad)Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; Teadur (1.00);EST / ENG01.01.2009−31.12.2009

Põhitäitjad (3)

IsikKraadTöökoht ja ametCVOsalemise periood
Martin Lutsmagistrikraad (teaduskraad)Eesti Infotehnoloogia Sihtasutus; Lektor (0.50);EST / ENG01.01.2009−31.12.2009
Siiri PärksondoktorikraadTartu Ülikool; Doktorant (1.00);EST / ENG01.01.2009−31.12.2010
Kadri Varemagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00); Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00); Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2009−31.12.2010

Projektiga seotud tööjõud (6)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Kadri Kerner0,25101.01.2009−31.12.2009
Kadri Kerner0,25101.01.2010−31.12.2009
Olga-Anniki Villem0,501.01.2009−31.12.2010
Olga-Anniki Villem0,501.01.2010−31.12.2010
Programmeerija101.01.2009−31.12.2009
Programmeerija101.01.2010−31.12.2009
Projektid
Projekt
EKKTT06-11; "Lihtlause semantiline analüüs"; Haldur Õim;
EKKTT07-21; "TÜ eesti keele tesauruse (eesti wordneti) täiendamine"; Heili Orav;
ETF5534; "Tähenduspõhise keeletöötluse ressursid ja töövahendid eesti keele jaoks"; Haldur Õim;
ETF5787; "Mitmesõnaliste verbide struktuur eestikeelsetes tekstides"; Heiki-Jaan Kaalep;
SF0180078s08; "Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine"; Mare Koit;
Publikatsioonid
Publikatsioonid
Kerner, K. (2008). Proposing Some Methods of Improving Word Sense Disambiguation for Estonian Language. Proceedings of the Fourth Global WordNet Conference: Proceedings of the Fourth Global WordNet Conference; Hungary, Szeged; 22. jaanuar - 25. jaanuar 2008. Ed. A. Tanacs; D. Csendes; V. Vincze; C. Fellbaum; P. Vossen. University of Szeged, Department of Informatics, 229−239.
Kahusk, Neeme; Kerner, Kadri; Vider, Kadri (2010). Enriching Estonian WordNet with Derivations and Semantic Relations. Baltic HLT Proceedings, 219: Human Language Technologies — the Baltic Perspective; Riga, Latvia; October 7–8, 2010. IOS Press, 195−200. (Frontiers in Artificial Intelligence and Applications).10.3233/978-1-60750-641-6-195.
Orav, Heili; Õim, Haldur; Kerner, Kadri; Kahusk, Neeme (2010). Main trends in semantic-research in Estonian language technology. Baltic HLT Proceedings: Human Language Technologies — the Baltic Perspective; Riga, Latvia; October 7–8, 2010. IOS Press, 201−207. (Frontiers in Artificial Intelligence and Applications).10.3233/978-1-60750-641-6-201.
Kahusk, Neeme (2010). Eurown: an eurowordnet module for python. Principles, Construction and Application of Multilingual Wordnets. Proceeding of the 5th Global Wordnet Conference: The 5th International Conference of the Global WordNet Association (GWC-2010); Mumbai, India; 31st Jan. - 4th Feb., 2010. Ed. Bhattacharyya, Pushpak; Fellbaum, Christiane; Vossen, Piek. Mumbai: Narosa Publishing House, 360−364.
Juhendamised
Juhendamised
Kadri Vare, doktorant, (juh) Heili Orav, Valdkonna-spetsiifilise ühetähenduslikkuse tõhusus sõnatähenduste ühestamisel, Tartu Ülikool.