See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keel ja rahvuslik mälu" projekt EKRM05-63
EKRM05-63 "Elektrooniliste sõnastike ettevalmistamine ja kasutajasõbralikud päringusüsteemid (1.01.2005−31.12.2005)", Jaak Vilo, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKRM05-63
Elektrooniliste sõnastike ettevalmistamine ja kasutajasõbralikud päringusüsteemid
1.01.2005
31.12.2005
Teadus- ja arendusprojekt
Riiklik programm: Eesti keel ja rahvuslik mälu
PerioodSumma
01.01.2005−31.12.2005270 000,00 EEK (17 256,15 EUR)
17 256,15 EUR

Sõnastike elektroonilise käsutuse populariseerimiseks on esmalt ülioluline saavutada sõnastike algmaterjali ja sõnastike päringusüsteemi selline kvaliteet, mille abil edasi arendada käsutajale mugavaid keskkondi. Päringusüsteemid peavad olema lihtsad, võimsad ja intelligentsed - paraku on need sellised nõuded, mis ei ole alati üksteisega kooskõlas. Projekti käigus uurime kvaliteedi saavutamise nõudeid ja töötame välja uusi, kasutajasõbralikke päringusüsteeme. Käesoleva projekti esimene eesmärk on sõnastike struktuurse märgendamise metoodika uurimine ja märgenduse süsteemide propageerimine sõnastike autorite seas. Kuigi esmapilgul on erinevad sõnastikud tavakasutajale üsna ühesugused, on sõnastike elektrooniliste versioonide ettevalmistamisel palju asjaolusid mis sõnastike elektroonilise kirjastamise mittetrviaalseks teevad. Esimene probleem on sõnastiku kirjete struktuuri märgendamine, mida eri autorite poolt teostatakse väga erinevalt. Esineb puhtalt paberversioonile orienteeritud teoseid (näit. ÕS, Seletussõnaraamat jne) ja puhtalt elektroonilisi teoseid (Teksaurus). Samuti esineb mitmeid erinevaid märgendusstiile (rea alguse põhine välja markeerimine Antonüümisõnaraamat jt; tabuleeritud teksti paljude atribuutidega 1976 a ÕS, XML-laadne märgendus Vene-eesti sõnaraamat; puu-kujuline ristiviidetega märgendus Teksaurus jne). Praktiliselt kõik meile teadaolevad sõnastikud käsutavad suhteliselt lõdvalt kokku lepitud märgendust, millel puuduvad väga täpsed formalismid ja struktuuri kirjeldavad definitsioonid (XML schema, struktuuri kirjeldav grammatika jne). Eesmärk on aidata kaasa märgendusviiside ühtlustamisele. Teine eesmärk on uute sõnastike elektrooniliste algversioonide (n. Wordi-failid) konverteerimine struktuurse teksti kujule ja kohandamine elektrooniliseks avaldamiseks. Sõnastike kvaliteetseks avalikult kättesaadavaks muutmine eeldab tööd sõnastike struktuuri võimalikult täpse kirjeldamise nimel. Selliseid sõnastikke pole mitte ainult lihtsam konverteerida veebi kujule vaid lisaks võimaldab vaid täpse struktuuri teadmine töötada välja keerulisemaid ja spetsiifilisemaid päringuliideseid. Näiteks, et oleks võimalik sooritada päringuid struktuursete märgenduste kaupa (näiteks otsida kelle teoste tsiteeringuid on käsutatud nende sõna-artiklite kirjeldustes kus ühe näite autorina esineb Luts), et saaks hinnata eri semantiliste väljade tähtsust päringute tegemisel, jne. Kavas on märgendada mitmeid teoseid mis seni on on olnud vaid küljendus-kujul. Projekti tulemusena peab sündima nii metoodika kui märgenduse teostamise abivahendid. Projekti kolmas eesmärk on lihtsate ja mugavate päringusüsteemide välja töötamine ja arendamine. KeeleWebi arendamise jooksul ilmnesid mitmed asjaolud mis muudavad sõnastiku kas mugavalt või hoopis eamugavalt käsutatavaks. Sõnastike päringuliideste vajadused eri kasutajagruppides on kohati täiesti erinevad ja seega tuleb päringusüsteeme arendada vastavalt kasutajagruppide vajadustele. Vaid täpse kirjete struktuuri teadmine lubab aga teostada intelligentsemaid päringuid ja paremini ennustada millised päringule vastavad artiklid käsutajat tegelikult huvitasid. Selles vallas on huvitavaid arenguid näidanud avalik veebiteenus Keelevara, mis koondab mitmeid kümneid teoseid. Käesoleva projekti raames uurime päringute kasutajasõbralikuks muutmise problemaatikat ja metoodikaid. See sisaldab nii ühe sõnastiku kekseid päringuid ja päringuvastuste sorteerimise (i.k. ranking) meetodeid, kui ka komplekspäringute (päring korraga paljudesse eri sõnastikesse) vastuste sobiva esituse valikut. Näiteks KeeleWebi komplekspäringus ei olnud arvestatud üldse milliste sõnastike vastused oleksid kõige prioriteetsemad. Projekti neljas eesmärk on elektrooniliste sõnastike käsutuse populariseerimine ennekõike läbi juhendmaterjalide ja koolitusprogrammide välja töötamise, koostamise ja koolituste läbi viimise. Eesmärk on töötada välja oma materjalid nii koolidele, tavakasutajatele ja professionaalsetele käsutajatele. Kokkuvõt