See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Institutsionaalne uurimistoetus" projekt IUT20-56
IUT20-56 "Eesti keele arvutimudelid (1.01.2014−31.12.2019)", Heiki-Jaan Kaalep, Tartu Ülikool, Loodus- ja täppisteaduste valdkond, arvutiteaduse instituut.
IUT20-56
Eesti keele arvutimudelid
Computational models for Estonian
1.01.2014
31.12.2019
Teadus- ja arendusprojekt
Institutsionaalne uurimistoetus
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
PerioodSumma
01.01.2014−31.12.2014128 400,00 EUR
01.01.2015−31.12.2015128 400,00 EUR
01.01.2016−31.12.2016128 400,00 EUR
01.01.2017−31.12.2017128 400,00 EUR
01.01.2018−31.12.2018128 400,00 EUR
01.01.2019−31.12.2019128 400,00 EUR
770 400,00 EUR

Projekt seob Eesti keele- ja arvutiteadusliku kompetentsi. Arendatakse alusuuringuid, mille tulemused on sisendiks rakenduslikele projektidele ( Eesti Keeletehnoloogia sihtprogrammi ja rahvusvahelised projektid). Tööd jaotuvad nelja allvaldkonda: arvutimorfoloogia, -süntaks, -semantika ning -pragmaatika. Eesmärgid on ühelt poolt seotud arvutilingvistika üldiste arengusuundadega ja teiselt poolt arvestavad eesti keele jaoks oluliste rakenduste vajadusi. Teemad: (1) tekstipõhine morfoloogiline ühestamine ja eesti keele muutesüsteemi süstemaatiline esitus; (2) leksikaal-grammatiliste konstruktsioonide tuvastamine ning konstruktsioonipõhise lähenemise ühendamine sõltuvussüntaktilise analüsaatoriga; (3) semantika sidumine teiste analüüsitasanditega ja vahendite väljatöötamine terviktekstide tähenduse esitamiseks ; (4) eesti kultuuriruumis toimuva suhtluse uurimine multimodaalse agendi modelleerimiseks; (5) tulemuste masintõlkes rakendamise võimalused.
The proposed research topic belongs to the realm of computational linguistics, unifying competence from theoretical linguistics and computer science. The planned research has two goals: attaining a more adequate description of Estonian, suitable for computer implementations, and developing effective computational models for processing Estonian data. The planned research will concentrate on theoretical research, while its results help to fulfil the task of creating the language-technological support for Estonian, as formulated in “Development Plan of the Estonian Language, 2011-2017”. The research is planned in four subject areas: computational morphology, syntax, semantics and pragmatics, the latter entailing dialogue modelling and multimodal communication.
Projekti uurimistulemused on rakendatavad eesti keele automaattöötluses: parem teooria võimaldab luua paremaid rakendusi; projektis loodud tarkvara võetakse otse kasutusele kui üks lisakomponent, mis muudab mingi olemasoleva rakenduse paremaks. Loomulik seos on projektil Eesti keeletehnoloogia riiklike sihtprogrammidega (2011-2017, 2018-2027). Loodud tarkvara ja keeleressursid on integreeritud nende sihtprogrammide raames arendatavasse teeki EstNLTK (https://github.com/estnltk/estnltk); see koondab eestikeelsete tekstide automaattöötluseks vajalikke baasoperatsioone ning muudab need ühtse liidese abil kasutatavaks. Teeki on kasutatud nii õppetöös, ettevõtete töövoogudes (nt Feelingstream ja TEXTA) kui ka teaduses (nt digihumanitaarias vana kirjakeele analüüsil ja/või tänapäevase keelega võrdlemisel) Tulevikuvaade Viimastel aastatel on välja pakutud närvivõrkudel põhinevaid keeletöötlusmeetodeid (kõige edukamalt masintõlkes), mille töökvaliteet ületab varasemaid meetodeid, nii reeglipõhiseid kui statistilisi. On märgata uurimisparadigma nihkumist: selle asemel, et luua spetsiaalset keeletöötluse tarkvara, keskendutakse selliste kunstlike keeleressursside loomisele, mida saab kasutada närvivõrgu (kui üldise, ülesandest ja keelest vähe sõltuva mudeli) treenimiseks. Seejuures luuakse neid ressursse sageli omakorda keelespetsiifilise tarkvara abil. Näiteks grammatikakorrektorina töötava närvivõrgu treenimiseks kasutatakse kunstlikult tekitatud vigadega tekstikorpust, s.t. muudetakse korrektsed laused vigasteks, aga nii, et vead oleksid sellised, mida inimesed päriselt teevad (mitte näiteks lihtsalt tähtede või sõnade juhuslik ümberpaigutamine). Ka kunstliku treenimismaterjali loomiseks on vaja keelespetsiifilist ja –teadlikku tarkvara:. selleks, et kunstlikult tekitada vale sõnajärg eesti keelele tavapärase „verb lauses teisel positsioonil“ asemel, peab programm ära tundma, milline sisendlause sõna on verb, enne kui ta selle mõnele teisel positsioonile nihutab.