"Riiklik programm: Eesti keeletehnoloogia" projekt EKT66
EKT66 "Eesti Wordneti täiendamine 2 (1.01.2015−31.12.2017)", Heili Orav, Tartu Ülikool, humanitaarteaduste ja kunstide valdkond, Filosoofia ja semiootika instituut.
EKT66
Eesti Wordneti täiendamine 2
1.01.2015
31.12.2017
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus70,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP175 Informaatika, süsteemiteooria1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)30,0
PerioodSumma
01.01.2015−31.12.201536 000,00 EUR
01.01.2016−31.12.201636 000,00 EUR
01.01.2017−31.12.201745 000,00 EUR
117 000,00 EUR
72000,00

Taotletava projekti peamine eesmärk on sisuliselt ja loogiliselt sama, mis eelmiselgi projektil (2010-2014) – Eesti Wordnet'i suurendamine ja täiendamine. Projekti lõpuks (2017. a.) plaanime jõuda vähemalt 95 000-mõistelise andmebaasini. Lisaks mõistete hulga suurendamisele parandatakse ja täiendatakse ka olemasolevat. Erilist tähelepanu kavatseme pöörata ingliskeelsetele vastetele. Oleme projekti meeskonda kaasanud inglise keele spetsialisti, kelle ülesanne on neid vasteid kontrollida ja täiendada. Korrektne inglise keel tagab EstWN-i kasutatavuse mitmekeelsete andmebaaside osana. EstWN-i suurus praegusel hetkel (detsember 2014; ver nr 71) on üle 72 tuhat mõistet, milles on sõnu u 98 700, semantilisi suhteid üle 230 000 ja ingliskeelseid suhteid üle 105 000. Aastas lisandub Eesti Wordnetti u 6000-7000 uut mõistet. Teiseks eesmärgiks on lisada EstWN-s olevatele mõistetele negatiivse, positiivse või neutraalse väärtuse konnotatsioon. Meelestatuse analüüs (opinion mining, sentiment analysis) on kiiresti arenev uurimisvaldkond, sest internet mängib üha rohkemat rolli igapäevaelus ning sisaldab üha rohkem infot inimeste meelsuse ja arvamuste kohta. Selleks, et tõhusalt tuvastada arvamused, nende emotsionaalne sisu ja arvamuste positiivne/negatiivne polaarsus, on kolm põhilist lähenemisviisi: 1) juhendatud õppimine, st statistilised meetodid, kus on vaja suuri treeningkorpusi 2) reeglipõhised generatiivsed meetodid ning 3) sõnastikupõhised (nt wordneti) meetodid – võtmesõnade määramine. Wordnet-tüüpi sõnastikule seda liiki info lisamine pole kuigi keeruline ettevõtmine nagu on näidanud SentiWordNet (http://sentiwordnet.isti.cnr.it/), SenticNet (http://sentic.net/) ja WordNet Affect (http://wndomains.fbk.eu/) . Suure tõenäosusega on võimalik EstWN-sse lisada need märgendid (pool)automaatselt, et laiendada EstWN-i võimalusi keeletehnoloogilise ressursina. Hetkel ei oska hinnata, kas ja kui palju tuleb sellega seoses teha käsitsi kontrollimise ja parandamise töid. Eesti Wordneti andmed on kättesaadavad www.cl.ut.ee lehel ja EKRK kodulehel. Andmete loomisel jälgitakse valdkonnas levinud standardeid. Kuna wordneti koostamise töövahend seda veel ei võimalda, siis arendust avalikult ei saa jälgida, kuid aasta jooksul tehakse avalikuks vähemalt 3 uut EstWN-i versiooni, kus on lisaks dokumenteeritud muutused (uued mõisted, parandused jms) võrreldes varasema verisooniga. Tesauruse meta-andmestik luuakse vastavalt EKRK vajadustele.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Heili OravdoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia lektor (0.50); Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; Teadur (0.50);EST / ENG01.01.2015−31.12.2017

Põhitäitjad (2)

IsikKraadTöökoht ja ametCVOsalemise periood
Sirli ZuppingdoktorikraadTartu Ülikool; Lektor (0.50); Tartu Ülikool; Teadur (0.50);EST / ENG01.01.2015−31.12.2017
Kadri Varemagistrikraad (teaduskraad)Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut; eesti keeletehnoloogia programmi koordineerija (1.00);EST / ENG01.01.2015−31.12.2017

Projektiga seotud tööjõud (6)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Eleri Aedmaa0,201.01.2016−31.12.2016
Helen Türk0,201.01.2016−31.12.2016
Ingmar Jaska0,101.01.2016−31.12.2016
Katrin Alekand0,201.01.2016−31.12.2016
Maria Reile0,201.01.2016−31.12.2016
Tene Viiburg0,201.01.2016−31.12.2016