See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keeletehnoloogia (EKT)" projekt EKT86
EKT86 "Avatud keeletehnoloogia pilvetaristu struktureerimata avaandmete väärindamiseks" (1.01.2015−31.12.2016); Vastutav täitja: Peep Küngas; Tartu Ülikool, Matemaatika-informaatikateaduskond; Finantseerija: Haridus- ja Teadusministeerium; Eraldatud summa: 63 000 EUR.
EKT86
Avatud keeletehnoloogia pilvetaristu struktureerimata avaandmete väärindamiseks
1.01.2015
31.12.2016
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia (EKT)
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2015−31.12.201535 000,00 EUR
01.01.2016−31.12.201628 000,00 EUR
63 000,00 EUR

Projekti raames luuakse pilveplatvorm avaandmete veebist korjamiseks ja väärindamiseks kasutades keeletehnoloogiaid. Väärindamise tulemusena muutub lihtsamaks rohkemast kui ühest allikast pärit avaandmete rakendamine, mis omakorda omab transformatiivset mõju avaandmete ning linkandmete initsitiividele, mis lõpuks viivad valitsemise läbipaistvuse suurenemiseni ja toe loomiseni uuenduslike lahenduste loomiseks. Täpsemalt rääkides tehakse pilveplatvormi rakendamise kaudu riigi avaandmete varamus kättesaadavaks kuni 100k avaliku sektori veebi andmefaili sisud, mis lingitakse ja mille läbi vähendatakse avaliku sektori, sh kohalike omavalitsuste, administratiivset koormust andmete avamisel hinnanguliselt kuni 800 tuhande inimtunni ulatuses. Seeläbi aidatakse kaasa üleriiklikule ja globaalsele avaandmete initsiatiivile. Kui 2015 aasta lõpuks on avaandmetena kasutatavad ca 5k faili sisud (kus on andmed tabelite kujul), siis 2016 aasta lõpuks on eesmärgiks teha avaandmetena kasutatavaks ca 100k andmefaili sisud. Kuigi projekti raames lisatakse platvormile vaid avaandmete linkimiseks vajalikud keeletehnoloogiad (morfoloogiline analüsaator jms) ja andmete linkimise tehnoloogiad, on loodav pilveplatvorm avatud ka teistele keeletehnoloogia tehnikatele (nt kõnetuvastuse meetodid, süntaktiline analüüs, masintõlge, õigekirjakontroll jms), mis jälgivad platvormi keeleressursside linkandmete ja tehnikate referentsmudelit. Samuti on platvormile toodud tehnikad avatud kasutamiseks kolmandatele osapooltele panustades seeläbi keeletehnoloogiate rakendamise lihtsustamisesse ja viies eesti keele keeletehnoloogilise toe osas lähemale arenenud keeletehnoloogia toega riikide tasemele. Veelgi enam, platvormi kaudu stimuleeritakse äriettevõtteid kasutama keeletehnoloogia tarkvara alandades keeletehnoloogia kasutamise barjääri ja luues seeläbi soodsad tingimused uute innovatiivsete e-teenuste arendamiseks nii avaliku kui erasektori poolt ja aidates seeläbi kaasa eesti keele ja kultuuri järjepidevuse tagamisele. Projekti raames panustatakse ka keeletehnoloogiate standardimisse läbi osalemise W3C Linked Data for Language Technology Community Group (http://www.w3.org/community/ld4lt/) tegevuses ning selle kaudu projektis loodud metamudelite ja parimate praktikate levitamisel. Vastav töögrupp loodi FP7 projekti LIDER (http://www.lider-project.eu/) raames ning selle funktsiooniks on keeleressursside linkandmetena esitamise metamudelite ja keeletehnoloogia tehnikate komponentide keeleressursside linkandmete töötlemise seisukohast standardimine. Käesolev projekt panustab sellesse standardimisse võttes sealt üle loodud referentsmudelid ning laiendades neid meie vajadusi arvestades. Standardiseerimisel peetakse silmas ka Eesti Keeleressursside Keskuse keeleressursside (nt eesti keele WordNet) lingitud kujule viimise võimalusi ning pakkudes välja näidislahenduse keeleressursside ja loodud tarkvara lihtsalt kasutatavana hoidmiseks. Loodud pilveplatvormi kasutamine lihtsustab ka teadustööd keeletehnoloogia vallas, eriti andmemahukate eksperimentide läbiviimisel. Samuti muutub lihtsamaks erinevaid keeletehnoloogiate ja keeleressursside kombineerimist eeldatavate uurimistööde läbiviimine nii küpsemate teadlaste kui tudengite poolt. Pilvelahenduse loomise baasil tekivad parimad praktikad ja kompetents analoogsete lahenduste disainimiseks ja realiseerimiseks kommertsrakendustes ja seeläbi tõstetakse Eesti firmade võimekust suurandmete ja keeletehnoloogia vallas läbi lüüa. Kõige lõpuks ei saa jätta ka märkimata, et ülikoolisiseselt kujutab loodud pilveplatvorm endast lahendust nii keeletehnoloogia kui pilvetehnoloogia praktikumide kui tudengite uurimistööde läbiviimiseks. Projekti tulemusena kaitstakse vähemalt 10 lõputööd - vähemalt 5 lõputööd aastal 2015 ning 5 lõputööd (millest vähemalt 2 magistritööd) aastal 2016.
Projekti olulisimad tulemused on seotud tehnilise lahenduse loomisega eestikeelsetes tekstidokumentides esinevate nimega üksuste tuvastamiseks (recognition) ja lahendamiseks (resolution). Täpsemalt on tulemused: 1) Apache Spark raamistikul põhinev lahendus nimega üksuste tuvastamiseks, mis kasutab EstNLTK (EKT57) projekti teeki. 2) Apache Spark raamistikul põhinev lahendus organisatsioonide ja isikute nimega üksuste lahendamiseks täpsusega 0.97 ja saagisega 0.48. Loodud tehnilise lahenduse lähtekood on kättesaadav asukohast https://github.com/peepkungas/estnltk-openstack-spark .