"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-62
EKKTT09-62 "Eesti keele semantika ressursid ja vahendid (1.01.2009−31.12.2010)", Neeme Kahusk, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-62
Eesti keele semantika ressursid ja vahendid
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
PerioodSumma
01.01.2009−31.12.2009305 825,00 EEK (19 545,78 EUR)
01.01.2010−31.12.2010270 000,00 EEK (17 256,15 EUR)
36 801,93 EUR

1. Korrastada semantiliselt ühestatud ja märgendatud (ühestatud sõnatähendustega) korpus ja suurendada seda 500 000 sõnani (Riikliku programmi alaeesmärk 2.2.4). Semantiliselt ühestatud korpus -- täpsemalt ühestatud sõnatähendustega korpus (ÜST), sest semantiline ühestamine on laiem mõiste -- sisaldab praegu 100 000 sõna. Sõnatähenduste ühestamist on tehtud mitmes järgus ja kasutatud on erinevaid eesti wordneti versioone. Olemasolev osa ÜST korpusest viiakse vastavusse viimase versiooniga eesti wordnetist ja töötatatakse välja vahendid (tarkvara koos kasutamisjuhendiga) kindlustamaks ÜST korpuse vastavust viimasele wordneti versioonile. Ühestatud sõnatähendustega korpust täiendatakse, suurendades seda 500 000 sõnani. 2. Luua sõnatähenduste käsitsi ühestamist hõlbustav tarkvara (Riikliku programmi alaeesmärk 2.1.9) Olemasolev osa ÜST korpusest on loodud ilma spetsiaalset tarkvara kasutamata: leksikograafid redigeerivad puhast teksti, kirjutades sinna vajalikku kohta sõnatähenduse numbri. Selline meetod on suhteliselt töömahukas ja soodustab vigade teket (näiteks kirjutatakse tähendusnuber valesse kohta). Projekti käigus luuakse sõnatähenduste ühestamist hõlbustav tarkvara, mis võimaldaks (1) valida ühestatavat faili (2)valida kasutatavat wordneti versiooni (3) leida ühestatavad sõnad failist (4) omistada ühestatavale sõnale wordnetis leiduv tähendus. 3. Luua leksikaal-semantilise andmebaasi loomist ja haldamist hõlbustav tarkvara (Riikliku programmi alaeesmärk 2.2.12). Eesti wordneti tegemiseks kasutatakse praegu programmi "Polaris", mille toetus on lõppenud seoses tootjafirma pankrotistumisega 1999. aastal. "Polarisega" eri aegadel ja erinevates arvutites tehtud wordneti kirjetes on kasutatud erinevaid kooditabeleid, see teeb koondbaasi kokkuajamise raskeks. "Polaris" töötab ainult Windowsi platvormil, tema edasine kasutamine tulevaste Windowsi versioonidega ei ole garanteeritud. Konfigureerimisvõimaluste piiratuse ja lähtekoodi puudumise tõttu ei ole võimalik lisada uusi semantilisi suhteid ega muud informatsiooni, mis töö käigus võib vajalikuks osutuda. Käesoleva projekti käigus luuakse programm, mis täidaks samu funktsioone, mis "Polaris", kuid oleks (1) avatud lähtekoodiga (2) kasutatav mitmel platvormil (3) ulatuslikumalt konfigureeritav. 4. Üldontoloogia ja valdkonnaontoloogiate-põhise mitmekeelse infootsingu raamistiku, ressursside ja rakenduste loomine (Riikliku programmi alaeesmärgid 2.1.6 ja 2.1.13) Üldontoloogia ja valdkonnaontoloogiate-põhise mitmekeelse infootsingu raamistiku, ressursside ja rakenduste tulemid on kasutatavad semantilistes otsimootorites, infoportaalides (nt neti.ee, google.ee) kui ka mitmekeelsust nõudvates valdkonnaspetsiifilistes infootsingutes (nt turismivaldkonnas: visitestonia.com, tallinn2011 kultuuripealinna raames, expo2010 eestit tutvustavas portaalis; nt euroopa liidu infosüsteemide semantilise liidestamise programmis IDABC, semic.eu jt). Selle ülesande täitmiseks (1) valitakse sobiv ontoloogiakeel, (2) luuakse ontoloogia ressursid (üldontoloogia ja mõned valdkonna-ontoloogiad) (3) luuakse ontoloogiat kasutav näidisrakendus. Kõik projekti käigus loodud tarkvara väljastatakse GNU GPL litsensiga (avalikuks kasutamiseks koos lähtekoodiga). STÜ korpus väljastatakse XML märgendusega. Leksikaal-semantilise andmebaasi tarkvara kasutab EuroWordNeti import-eksportformaati, mis vastab GEDCOM standardile ja on lihtsalt teisendatav XML kujule. Seda programmi saavad kasutada kõik, kes tegelevad wordneti arendamisega Eurowordneti formaadis. Ontoloogiarakendus väljastatakse ka avalikult kasutatava teenusena.