See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keeletehnoloogia" projekt EKT110
EKT110 "EstNLTK teegi täiendamine ja selle rakendamine praktikas (1.01.2017−31.12.2017)", Sven Laur, Tartu Ülikool, Loodus- ja täppisteaduste valdkond, arvutiteaduse instituut.
EKT110
EstNLTK teegi täiendamine ja selle rakendamine praktikas
Enhancements of EstNLTK library and its applications in practice
1.01.2017
31.12.2017
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2017−31.12.201768 000,00 EUR
68 000,00 EUR
0,00 EUR

<p>Projekti peaeesmärkideks on:</p> <p>- laiendada EstNLTK teegi kasutajaskonda;<br /> - parandada ja täiendada EstNLTK teeki ja selle laiendusi;<br /> - lihtsustada EstNLTK teegi kasutamist praktilistes rakendustes;<br /> - realiseerida keeletehnoloogia seisukohalt olulisi näiterakendusi.</p> <p>Nende eesmärkide saavutamiseks vajalikud alameesmärgid on:</p> <p>- saada valmis uuendatud liidesega stabiilne EstNLTK teek 1.6;<br /> - täiendada faktieralduseks kasutatavaid grammatika komponente;<br /> - parandada EstNLTK töövahendite täpsust mittekirjakeelsetel tekstidel;<br /> - luua lihtne töövoog keeletehnoloogiliste baasanalüüside teostamiseks;<br /> - lihtsustada eraldatud faktide visualiseerimist veebirakendustes;<br /> - muuta faktieralduseks kasutatav veebirakendus pattern-examiner lihtsalt kasutatavaks;<br /> - luua uusi efektiivseid märgendusvahendeid keeleressursside loomiseks;<br /> - võtta kasutusele uusi faktieralduseks sobilikke masinõppemeetodeid;<br /> - kohandada sõnade vektoresituse leidmise meetodid eestikeelsete tekstide analüüsiks.</p>
Projekti peamiseks tulemuseks on uuendatud liidestusega EstNLTK 1.6 teek, mis on kõigile kättesaadav GNU/GPL v2 litsentsi alusel. EstNLTK 1.4 teegi baasfunktsionaalsus on täielikult kaetud, välja arvatud nimeolemite ja ajaväljendite märgendamine ning süntaksipuude esitus. Vastavad täiendused on plaanis teha lähitulevikus. EstNLTK teegis on kergesti kohandatav ning robustne lingvistilise analüüsi töövoog, mis toimib ka kirjakeelest oluliselt erinevatel tekstidel. Sõltuvalt tekstide eripärast on võimalik kohandada sõnestamist, lausestamist ja morfoloogilist analüüsi. Vaikimisi kasutatakse EKT67 projektis ja Koondkorpuse analüüsi abil leitud lihtsustus- ja normaliseerimisreegleid. Töö tulemust valideeriti läbi Koondkorpuse ja etTenTen-i täieliku analüüsi. Tulemusena saadud keeleressursid on talletatud Metashare keskkonnas. EstNLTK teegis on olemas laiendatud lõplikel grammatikatel põhinev parser, mis saab hakkama mitmesustega sõnestuses ja sõnedega seotud atribuutides. Fraasigrammatika kompaktsemaks muutmiseks määrab grammatika vaid sobilike fraaside ülemhulga. Igale reeglile saab määrata validaatorfunktsiooni, mis kontrollib ühendatavate alamfraaside omavahelist kooskõla. Igale reeglile saab määrata dekoraatorfunktsiooni, mis arvutab jooksvalt koostatava fraasi tähendust ja kooskõla väljendavaid atribuute. Lahendus on testitud praktilistel ülesannetel. EstNLTK teek oskab tekstobjekte hoiustada PostGreSQL andmebaasis nii, et on võimalik sooritada efektiivseid päringuid üle olemasolevate kihtide ning nende atribuutide. Vastav liides on lihtne ja optimeeritud erinevate märgendus- ja faktieraldusülesannete lahendamiseks. Koostöös Eesti Keeleressursside Keskusega oleme arendanud veebiteenuseid EstNLTK 1.6 teegi peamiste keeletehnoloogiliste operatsioonide jaoks ning liidestanud need WebLicht analüüsikeskkonnaga. Tulevikus on plaanis lisada uusi analüüsi- ja visualisatsioonikomponente vastavalt lingvistide vajadustele.