"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-18
EKKTT06-18 "Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid (1.01.2006−31.12.2008)", Tiit Roosmaa, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT06-18
Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid
1.01.2006
31.12.2008
Teadus- ja arendusprojekt
Riiklik programm: Eesti keele keeletehnoloogiline tugi
PerioodSumma
01.01.2006−31.12.2006370 000,00 EEK (23 647,31 EUR)
01.01.2007−31.12.2007370 000,00 EEK (23 647,31 EUR)
01.01.2008−31.12.2008500 000,00 EEK (31 955,82 EUR)
79 250,44 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Tegemist on 2004.a. riikliku programmi ”Eesti keel ja rahvuslik mälu” poolt käivitatud projetiga. Eesti keele jaoks ei ole veel siiani keeletehnoloogilist tarkvara, mis kasutaks loomuliku keele analüüsi sügavamaid tasandeid – süntaksit ja semantikat. Käesoleva projekti raames luuakse järgmiste keeletarkvarasüsteemide prototüübid: a) grammatikakorrektor b) süntaksianalüüsil põhinev automaatsete sisukokkuvõtete tegija c) süntaksianalüüsil põhinev infootsisüsteem Nimetatud keeletarkvara prototüüpide loomiseks ja testimiseks on vaja pind- ja süvasüntaktiliselt märgendatud treening- ja testkorpusi, mis sisaldavad erinevatesse tekstiliikidesse kuuluvaid tekste (ilukirjandus, ajakirjandus, juriidiline keel, teaduskeel, suuline kõne). Seejuures grammatikakorrektori arendamiseks on vaja nii grammatiliselt korrektsete tekstide korpust kui grammatiliselt vigastest lausetest koosnevat korpust (viimane peaks sisaldama esinduslikku valimit inimeste poolt tehtavatest grammatikavigadest). Treening- ja testkorpused, mida kasutatakse süntaksianalüüsipõhise keeletarkvara arendamiseks, peavad olema a) pindsüntaktiliselt märgendatud (märgendatud iga sõna süntaktiline funktsioon lauses) b) süvasüntaktiliselt märgendatud (iga lause kohta konstrueeritud süntaksipuu, mille tulemusena moodustub nn. süntaksipuude pank) Pindsüntaktiliseks analüüsiks kasutatakse olemasolevat eesti keele kitsenduste grammatika süntaksianalüsaatorit (autorid K. Müürisep ja T. Puolakainen). Kuna automaatanalüüsi tulemus ei ole ega saagi olla 100 % ühene, siis peab analüüsitud tekstid läbi vaatama ja korrigeerima arvutilingvisti haridusega inimene. Eesti keele süntaksipuude panga märgendus peaks olema ühilduv või teisendusrelatsioonis Põhjamaade paralleelpuudepanga märgendamiseks valitava formalismiga, et oleks võimalik kasutada mujal välja töötatud tarkvaralisi vahendeid puudepanga loomiseks ja kasutamiseks, näiteks päringu- ja visualiseerimisvahendeid.