"Riiklik programm: Eesti keeletehnoloogia" projekt EKT66
EKT66 "Eesti Wordneti täiendamine 2 (1.01.2015−31.12.2017)", Heili Orav, Tartu Ülikool, humanitaarteaduste ja kunstide valdkond, Filosoofia ja semiootika instituut.
EKT66
Eesti Wordneti täiendamine 2
1.01.2015
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus70,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)30,0
PerioodSumma
01.01.2015−31.12.201536 000,00 EUR
01.01.2016−31.12.201636 000,00 EUR
01.01.2017−31.12.201745 000,00 EUR
117 000,00 EUR

Taotletava projekti peamine eesmärk on sisuliselt ja loogiliselt sama, mis eelmiselgi projektil (2010-2014) – Eesti Wordnet'i suurendamine ja täiendamine. Projekti lõpuks (2017. a.) plaanime jõuda vähemalt 95 000-mõistelise andmebaasini. Lisaks mõistete hulga suurendamisele parandatakse ja täiendatakse ka olemasolevat. Erilist tähelepanu kavatseme pöörata ingliskeelsetele vastetele. Oleme projekti meeskonda kaasanud inglise keele spetsialisti, kelle ülesanne on neid vasteid kontrollida ja täiendada. Korrektne inglise keel tagab EstWN-i kasutatavuse mitmekeelsete andmebaaside osana. EstWN-i suurus praegusel hetkel (detsember 2014; ver nr 71) on üle 72 tuhat mõistet, milles on sõnu u 98 700, semantilisi suhteid üle 230 000 ja ingliskeelseid suhteid üle 105 000. Aastas lisandub Eesti Wordnetti u 6000-7000 uut mõistet. Teiseks eesmärgiks on lisada EstWN-s olevatele mõistetele negatiivse, positiivse või neutraalse väärtuse konnotatsioon. Meelestatuse analüüs (opinion mining, sentiment analysis) on kiiresti arenev uurimisvaldkond, sest internet mängib üha rohkemat rolli igapäevaelus ning sisaldab üha rohkem infot inimeste meelsuse ja arvamuste kohta. Selleks, et tõhusalt tuvastada arvamused, nende emotsionaalne sisu ja arvamuste positiivne/negatiivne polaarsus, on kolm põhilist lähenemisviisi: 1) juhendatud õppimine, st statistilised meetodid, kus on vaja suuri treeningkorpusi 2) reeglipõhised generatiivsed meetodid ning 3) sõnastikupõhised (nt wordneti) meetodid – võtmesõnade määramine. Wordnet-tüüpi sõnastikule seda liiki info lisamine pole kuigi keeruline ettevõtmine nagu on näidanud SentiWordNet (http://sentiwordnet.isti.cnr.it/), SenticNet (http://sentic.net/) ja WordNet Affect (http://wndomains.fbk.eu/) . Suure tõenäosusega on võimalik EstWN-sse lisada need märgendid (pool)automaatselt, et laiendada EstWN-i võimalusi keeletehnoloogilise ressursina. Hetkel ei oska hinnata, kas ja kui palju tuleb sellega seoses teha käsitsi kontrollimise ja parandamise töid. Eesti Wordneti andmed on kättesaadavad www.cl.ut.ee lehel ja EKRK kodulehel. Andmete loomisel jälgitakse valdkonnas levinud standardeid. Kuna wordneti koostamise töövahend seda veel ei võimalda, siis arendust avalikult ei saa jälgida, kuid aasta jooksul tehakse avalikuks vähemalt 3 uut EstWN-i versiooni, kus on lisaks dokumenteeritud muutused (uued mõisted, parandused jms) võrreldes varasema verisooniga. Tesauruse meta-andmestik luuakse vastavalt EKRK vajadustele.