"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT09-66
EKKTT09-66 "Nutika süvaveebi- ja veebiressursse kombineeriva infootsisüsteemi prototüüp (1.01.2009−31.12.2010)", Peep Küngas, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT09-66
Nutika süvaveebi- ja veebiressursse kombineeriva infootsisüsteemi prototüüp
1.01.2009
31.12.2010
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2009−31.12.2009602 240,00 EEK (38 490,15 EUR)
01.01.2010−31.12.2010575 000,00 EEK (36 749,20 EUR)
75 239,35 EUR

Selle projekti eesmärgiks (ühtib EKKTT alameesmärgiga 3.1.5 - infootsingute lahendused) on edendada tehnoloogiat süntaksi- ja semantikapõhiste infootsingute toetamiseks nii veebis kui desktop- rakenduses. Projekti vahetulemused on sisendiks eesti keele morfoloogilisele (ühtib EKKTT alameesmärgiga 3.1.8 - morfoloogiline analüüs ja süntees) ja semantilisele analüüsile (ühtib EKKTT alameesmärgiga 3.1.10 - semantiline analüüs ja süntees). Paremate infootsingute tulemuste tagamiseks on vaja kombineerida nii struktureeritud ressursse süvaveebis (süvaveebi moodustavad online-andmebaasid ja –andmeteenused, mille sisu ei ole otsingumootorite poolt indekseeritav) kui masinloetavuse seisukohalt struktureerimata ressursse veebis, dokumendihoidlates, lokaalsetes arvutites ja mujal. Kui struktureeritud süvaveebi ressursid pakuvad väga detailse semantikaga, ent üldjuhul suhteliselt piiritletud hulka valdkonnaspetsiifilist infot, siis struktureerimata ressursid veebis ja mujal pakuvad tavaliselt rikkalikumat hulka infot, ent mille semantika ja kontekst on paraku selgelt piiritlemata. Kombineerides neid teineteist täiendavaid allikaid suureneb ühest küljest veebipõhiste otsingute täpsus ja asjakohasus ning laieneb teisest küljest süvaveebi ressursside rakendusvaldkond. Näiteks lihtsustub kas e-kirja sees saabunud või veebilehel leiduva isiku/organisatsiooni kontaktinfo extraction, verifitseerimine, täiendamine ja lisamine kontaktibaasidesse, dokumentidest leitud aadressiandmete kuvamine kaardirakendustes. Samuti saab võimalikuks riigi ja teiste e-teenuste blanketivormide automaatne eeltäitmine teksti kujul esinevate dokumentide sisu baasil ning otsimootorite tulemuste visualiseerimine (näiteks otsides otsimootori kaudu infot isiku kohta, kuvatakse ka info temaga seotud organisatsioonide kohta ning graafiliselt esitatud aegread nende organisatsioonide finantsnäitajate kohta viimaste aastate jooksul). Riigi infosüsteemi semantilise koosvõime raamistiku toel on avalikus sektoris loomisel mitmed ontoloogiad, mille abil kirjeldatakse muuhulgas semantiliselt riigi andmeteenused (eestikeelse süvaveebi oluline osa) ja nende poolt vahetatavad andmeobjektid. See loob uudseid võimalusi riigi infosüsteemi andmeteenuste omavaheliseks kombineerimiseks, mille tulemusena peaks vähenema riigi halduskoormus ning paraneb kodanikele ja organisatsioonidele teenuste osutamine. Samal ajal puudub seni võimalus eestikeelsete (ja muukeelsete) dokumentide sisu sidumiseks süvaveebi andmeallikatega, mistõttu ei ole võimalik veebi- ja dokumendipõhiseid otsinguid siduda andmeteenuste otsingutega. Siduva tehnoloogiana oleks siin vaja välja arendada nimega üksuste tuvastamise (NER - ingl k named entity recognition) tehnoloogia eestikeelsete tekstide jaoks. NER tehnoloogia võimaldaks jooksvast tekstist leida nimed ja nimetaolised väljendid ning seejärel analüüsida, kas tegemist on isiku, koha, aja, sündmuse või organisatsiooni identifikaatoriga ja siduda see mõistetehierarhiaga, olgu see siis esitatud ontoloogiana või muus vormis (nt Wordneti struktuurina). Lisaks otsimootoritele oleks seda tehnoloogiat vaja mistahes tekstist aru saada püüdva rakenduse jaoks, aga ka näiteks süntaktilisel analüüsil, et kuupäevad ja aadressid võetaks ühe analüüsiühikuna. Kuigi eestikeelse NER tehnoloogia arendamise vallas on üht-teist uuritud teatud valdkonnaspetsiifiliste rakenduste valguses (nt ajaväljendid dialoogisüsteemides), pole NERi vaadeldud kui tervikut laiema hulga rakenduste kontekstis. Veelgi enam, riigi infosüsteemi semantilise koosvõime raamistiku toel saaks eesti keele jaoks disainitud NERist ühenduslüli eestikeelse veebi ning võõrkeelse süvaveebi vahel (prioriteet – mitmekeelne infootsing) aidates tarbida eestikeelses kultuuriruumis muukeelse kultuuriruumi teenuseid. Seega omab NER tehnoloogia eestikeelsete tekstide töötlemisel üliolulist rolli. NER tehnoloogia universaalseks rakendamiseks suvalises rakendusvaldkonnas on vaja modulaarset mõistete süsteemi, mille siduvaks lüliks eesti keele ja kultuuri kontekstis oleks eesti üldontoloogia. Käesoleva projekti raames luuakse või korduvkasutatakse (taotluses EKKTT 09-62, "Eesti keele semantika ressursid ja vahendid" planeeritavat) esimest versiooni eesti üldontoloogiast ning seotakse see spetsiifilisemate konkreetse rakendusvaldkonna ontoloogiate ning teiste mõistete süsteemide komponentidega lähtudes nutika otsimise rakendusest.