See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-12
EKKTT06-12 "Elektrooniliste teatmeteoste kasutajasõbralikud päringusüsteemid (1.01.2006−31.12.2008)", Jaak Vilo, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT06-12
Elektrooniliste teatmeteoste kasutajasõbralikud päringusüsteemid
1.01.2006
31.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
PerioodSumma
01.01.2006−31.12.2006380 000,00 EEK (24 286,43 EUR)
01.01.2007−31.12.2007280 000,00 EEK (17 895,26 EUR)
01.01.2008−31.12.2008400 000,00 EEK (25 564,66 EUR)
67 746,35 EUR
0,00 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : TÖÖ EESMÄRGID, TÄHTSUS EESTI KEELE JA KULTUURI KONTEKSTIS (kuni 1 lk): Sõnastike, tekstikorpuste ja teiste tekstiandmebaaside elektroonilise kasutuse populariseerimiseks on esmalt ülioluline saavutada algmaterjali ja päringusüsteemide selline kvaliteet, mille abil edasi arendada kasutajale mugavaid keskkondi. Päringusüsteemid peavad olema lihtsad, võimsad ja intelligentsed – paraku on need sellised nõuded, mis ei ole alati üksteisega kooskõlas. Projekti käigus uurime kvaliteedi saavutamise nõudeid ja töötame välja uusi, kasutajasõbralikke päringusüsteeme. Käesoleva projekti esimene eesmärk on sõnastike ja teiste teatmeteoste struktuurne märgendamine ja ettevalmistamine elektroonilise andmebaasi ning info-otsingute jaoks. Kuigi esmapilgul on erinevad sõnastikud tavakasutajale üsna ühesugused, on sõnastike elektrooniliste versioonide ettevalmistamisel palju asjaolusid mis sõnastike elektroonilise kirjastamise mittetriviaalseks teevad. Esimene probleem on sõnastiku kirjete struktuuri märgendamine, mida eri autorite poolt teostatakse väga erinevalt. Esineb puhtalt paberversioonile orienteeritud teoseid (näit. ÕS, Seletussõnaraamat jne) ja puhtalt elektroonilisi teoseid (n. Teksaurus). Samuti esineb mitmeid erinevaid märgendusstiile (rea alguse põhine välja markeerimine Antonüümisõnaraamat jt; tabuleeritud teksti paljude atribuutidega 1976 a ÕS, XML-laadne märgendus Vene-eesti sõnaraamat; puu-kujuline ristiviidetega märgendus Teksaurus jne). Praktiliselt kõik meile teadaolevad sõnastikud kasutavad suhteliselt lõdvalt kokku lepitud märgendust, millel puuduvad väga täpsed formalismid ja struktuuri kirjeldavad definitsioonid (XML schema, struktuuri kirjeldav grammatika jne). Paljudel algmaterjalidel puudub struktuurse märgenduse kuju aga sootuks, näiteks on need vaid Wordi failide kujul kasutades paremal juhul küljendus-märgendust. Eesmärk on aidata kaasa märgendusviiside ühtlustamisele. Projekti teine eesmärk on lihtsate ja mugavate päringusüsteemide välja töötamine ja arendamine. KeeleWebi arendamise jooksul ilmnesid mitmed asjaolud mis muudavad sõnastiku kas mugavalt või hoopis eamugavalt kasutatavaks. Sõnastike päringuliideste vajadused eri kasutajagruppides on kohati täiesti erinevad ja seega tuleb päringusüsteeme arendada vastavalt kasutajagruppide vajadustele. Vaid täpse kirjete struktuuri teadmine lubab aga teostada intelligentsemaid päringuid ja paremini ennustada millised päringule vastavad artiklid kasutajat tegelikult huvitasid. Selles vallas on huvitavaid arenguid näidanud avalik veebiteenus Keelevara, mis koondab mitmeid kümneid teoseid. Käesoleva projekti raames uurime päringute kasutajasõbralikuks muutmise problemaatikat ja metoodikaid. See sisaldab nii ühe sõnastiku keskseid päringuid ja päringuvastuste sorteerimise (i.k. ranking) meetodeid, kui ka komplekspäringute (päring korraga paljudesse eri sõnastikesse) vastuste sobiva esituse valikut. Näiteks KeeleWebi komplekspäringus ei olnud arvestatud üldse milliste sõnastike vastused oleksid kõige prioriteetsemad. Üks oluline moment on võtta kasutusele lingvistiliselt mõistlikud sõnade sarnasuse mõõdud, mis võimaldavad igale täheühendite teisendusele määrata sobiva kaalu. Kasutusnäited on võõrnimede erinevad transkriptsoonireeglid, murrete ja tüüpiliste sisestusvigade spetsiifilised reeglid, või koguni venekeelsetest tekstidest ladina tähestiku järgi otsimine. Lisaks sellisele mehhaanilisele ja statistilisele sarnasusele arendaksime välja ka morfoloogilist analüüsi ja sünteesi kasutavad päringumootorid, eeldusel, et vastavad moodulid on projekti juures kasutatavad. Projekti kolmas eesmärk on elektrooniliste sõnastike kasutuse populariseerimine ennekõike läbi juhendmaterjalide ja koolitusprogrammide välja töötamise, koostamise ja koolituste läbi viimise. Eesmärk on töötada välja oma materjalid nii koolidele, tavakasutajatele ja professionaalsetele kasutajatele. Kokkuvõttes pühendub käesolev projekt elektrooniliste sõnastike j