"Riiklik programm: Eesti keeletehnoloogia" projekt EKT22
EKT22 "Mallipõhine faktituletus tekstikorpustest (1.01.2011−31.12.2013)", Sven Laur, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKT22
Mallipõhine faktituletus tekstikorpustest
1.01.2011
31.12.2013
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP176 Tehisintellekt 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2011−31.12.201121 000,00 EUR
01.01.2012−31.12.201219 000,00 EUR
01.01.2013−31.12.201323 500,00 EUR
63 500,00 EUR

Praktilistes infosüsteemide loomise käigus on tihti tarvis vabatekstist tuletada lihtsaid fakte. Näiteks soovivad uudisteportaalid indekseerida uudiseid nendes kirjeldatava sündmuse asukoha ning toimumisaja järgi. Sedatüüpi lihtne faktituletus (fact extraction) võimaldab automaatselt koguda teavet ning lihtsustada dokumentide otsingut. Teise tüüpilise rakendusena võiks faktituletust kasutada olulise info eraldamiseks avalikest või ametkondlikest dokumentidest, mida saab hiljem kasutada muude andmetöötlusprogrammide sisendina. Projekti eesmärgiks on kohandada ingliskeelse faktibaasi YAGO loomisel kasutatud mallipõhist faktituletussüsteemi LEILA eestikeelsete tekstide analüüsimiseks ning vajadusel laenata ideid teistest analoogsetest süsteemidest nagu KnowItAll ja DBpedia. Projekti esimeses faasis kohandame ning hinnadame antud lähenemise kasutatavust geo-sildistamise (geo tagging) kontekstis. Projekti teises etapis laiendame süsteemi nii, et oleks võimalik eraldada tekstist teisi seoseid nagu sündmuse tüüp ja toimumisaeg, inimeste ametid, organisatsioonide tegevusvaldkond jms. Konkreetsed seosed valitakse katmaks võimalikult erinevaid reaalsetes rakendustes vajalikke seoseid. Lisaks poolautomaatsele eraldusmallide (extraction patterns) tuletusele peab süsteem oskama automaatselt hinnata eraldusalgoritmi täpsust ja saagist erinevat tüüpi tekstikorpustes. Projekti oodatavaks lõpptulemuseks on vabavaraline keskkond seoste eraldusmallide leidmiseks ning hindamiseks. Täpsemalt on vabavaraline vaid projekti käigus loodud töökeskond, juba loodud keeletehnoloogiliste analüüsivahendite litsensitingimused ei muutu. Mitterahuldavate tulemuste korral lõpeb projekt esimese etapiga ning sellel juhul on tulemuseks mallipõhine geo-sildistaja, mis väjastab sündmuste ja nende toimumiskohatade paare. See on oluliselt erinev juba olemas olevatest lahendustest, mis märgendavad vaid tekstis olevaid kohanimesid. Teise etapi toimumisel on lisaltulemuseks ka faktibaas keskkonna testimisel tekstidest leitud seostest.