See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)" projekt EKKTT07-23
EKKTT07-23 "Reeglipõhine keeletarkvara (1.01.2007−23.12.2008)", Jan Villemson, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT07-23
Reeglipõhine keeletarkvara
1.01.2007
23.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi (EKKTT)
PerioodSumma
01.01.2007−31.12.2007290 000,00 EEK (18 534,38 EUR)
01.01.2008−31.12.2008150 000,00 EEK (9 586,75 EUR)
28 121,13 EUR

Eesti keel, nagu ka teised keeled, allub reeglitele, mis määravad korrektse keelekasutuse alused. Keeletarkvara loomisel on üheks alusprobleemiks, kuidas neid reegleid võimalikult efektiivselt esitada. On olemas kaks põhimõtteliselt erinevat lähenemist -- statistiline (sõnastiku-põhine) ja reeglipõhine. Statistilised meetodid ei vaja palju programmiloogikat, küll aga suuri tekstikorpusi ja palju arvutusvõimsust. Reeglipõhised meetodid seevastu võimaldavad väga kompaktset esitust keerulisema uurimustöö ning programmeerimise hinnaga. Lisaväärtusena on reeglipõhisel lähenemisel rohkem potentsiaalseid rakendusi sõna morfoloogia kirjeldamisel, mille väljunditeks on näiteks õigekirjakontrollija (speller), aga ka elektrooniliste sõnastike koostamine. Käesoleva töö üldisem eesmärk on arendada edasi varem välja pakutud metoodikat reeglipõhise morfoloogilise analüüsi ja sünteesi moodulite jaoks, mille eestvedaja on olnud Ülle Viks Eesti Keele Instituudist. Selle arendustöö baasilt luuakse konkreetsed keeletehnoloogilised rakendused, mida järgnevas kirjeldame. Töö konkreetsed eesmärgid. Esimene eesmärk on arendada tarkvara selliselt, et viia teineteisest täielikult lahku reeglite kogum ja reeglite rakendamise mootor. Senistes lahendustes (nt Filosofti poolt loodud õigekirjakontrollijas) on osa “reegleid” ehk programmi käitumist olnud kirjutatud programmi koodi. Samuti on senised rakendused kättesaadvad vaid Windows-platvormil (erandiks Filosofti kinnise lähtekoodiga spelleri port OpenOffice'ile Linuxi alla). Olemasolevad vabalt kätte saadavad programmid on kirjutatud Delphis (morfoloogiline analüüs) ja C++s (morfoloogiline süntees), nad on praeguseks vananenud, vajades kaasajastamist, portimist ja paiguti ümberkirjutamist. Käesoleva projekti esimese tulemusena plaanime luua platvormist sõltumatu morfoloogiliste reeglite rakendamise mootori ning teha selle vabalt kättesaadavaks kõikidele keelehuvilistele ja arendajatele. Teine eesmärk on arendada edasi reeglite kogumeid, mida saaks kasutada morfoloogilise analüüsi ja sünteesi eesmärkidel. Mingil kujul on reeglistikud Eesti Keele Instituudi teadurite töö tulemusena olemas, kuid neid tuleb täiendada ja kohandada sobivaks automaatseks kasutamiseks loodava morfoanalüüsi ja -sünteesi mootoriga. Samuti on plaanis neid reeglistikke testida suurtel tekstikorpustel. Tekkivad reeglite komplektid lähevad samuti avalikuks kasutamiseks. Kolmas eesmärk on arendada edasi algoritme, mis lubaks reeglite kogumeid kiiremini evalveerida. Eesmärk on muuta reeglipõhine analüüs võimalikult kiireks ja efektiivseks. See on oluline ülisuurte andmemassiivide analüüsimiseks ning suurte tekstiandmebaaside morfoloogilist analüüsi ja sünteesi kasutavate indekseerimise ja päringute sooritamise meetodite väljaarendamiseks. Samuti plaanime töötada välja metoodikaid morfoloogilise analüüsi mooduleid sisaldavate otsimootorite arendamiseks. Neljas eesmärk on luua vabavaraline eesti keele speller, mida saaks kasutada erinevatel platvormidel ja mis liidestuks standardsete spelleriliidestega (ispell, aspell, myspell, hunspell). Töö tähtsus eesti keele ja kultuuri jaoks seisneb esmajoones keele kasutuse reeglite võimalikult täpses formuleerimises. Juba ainuüksi kõikide reeglite formaalne ja lihtne kirjapanemine (neid reegleid on lõplik hulk) annab uued alused keele olemuse paremaks mõistmiseks. Lisaks saame täiendavat infot suurte tekstikorpuste analüüsist. Plaanime anda kõik reeglite kogumid ja tarkvara avatud lähtekoodi ja avaliku litsentsiga ühiskasutusse. See loob soodsa pinnase, et edasi arendada mitmeid vabavaralisi tarkvarapakette, mis vajavad keeletehnoloogia mooduleid; see omakorda soodustab uute eestindatud tarkvarakeskkondade arengut.