"Riiklik programm: Eesti keele keeletehnoloogiline tugi" projekt EKKTT06-18
EKKTT06-18 "Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid (1.01.2006−31.12.2008)", Tiit Roosmaa, Tartu Ülikool, Matemaatika-informaatikateaduskond.
EKKTT06-18
Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid
1.01.2006
31.12.2008
Riiklik programm: Eesti keele keeletehnoloogiline tugi
PerioodSumma
01.01.2006−31.12.2006370 000,00 EEK (23 647,31 EUR)
01.01.2007−31.12.2007370 000,00 EEK (23 647,31 EUR)
01.01.2008−31.12.2008500 000,00 EEK (31 955,82 EUR)
79 250,44 EUR

PROJEKTI EESMÄRGID JA TÄHTSUS (kuni 1 lk) : Tegemist on 2004.a. riikliku programmi ”Eesti keel ja rahvuslik mälu” poolt käivitatud projetiga. Eesti keele jaoks ei ole veel siiani keeletehnoloogilist tarkvara, mis kasutaks loomuliku keele analüüsi sügavamaid tasandeid – süntaksit ja semantikat. Käesoleva projekti raames luuakse järgmiste keeletarkvarasüsteemide prototüübid: a) grammatikakorrektor b) süntaksianalüüsil põhinev automaatsete sisukokkuvõtete tegija c) süntaksianalüüsil põhinev infootsisüsteem Nimetatud keeletarkvara prototüüpide loomiseks ja testimiseks on vaja pind- ja süvasüntaktiliselt märgendatud treening- ja testkorpusi, mis sisaldavad erinevatesse tekstiliikidesse kuuluvaid tekste (ilukirjandus, ajakirjandus, juriidiline keel, teaduskeel, suuline kõne). Seejuures grammatikakorrektori arendamiseks on vaja nii grammatiliselt korrektsete tekstide korpust kui grammatiliselt vigastest lausetest koosnevat korpust (viimane peaks sisaldama esinduslikku valimit inimeste poolt tehtavatest grammatikavigadest). Treening- ja testkorpused, mida kasutatakse süntaksianalüüsipõhise keeletarkvara arendamiseks, peavad olema a) pindsüntaktiliselt märgendatud (märgendatud iga sõna süntaktiline funktsioon lauses) b) süvasüntaktiliselt märgendatud (iga lause kohta konstrueeritud süntaksipuu, mille tulemusena moodustub nn. süntaksipuude pank) Pindsüntaktiliseks analüüsiks kasutatakse olemasolevat eesti keele kitsenduste grammatika süntaksianalüsaatorit (autorid K. Müürisep ja T. Puolakainen). Kuna automaatanalüüsi tulemus ei ole ega saagi olla 100 % ühene, siis peab analüüsitud tekstid läbi vaatama ja korrigeerima arvutilingvisti haridusega inimene. Eesti keele süntaksipuude panga märgendus peaks olema ühilduv või teisendusrelatsioonis Põhjamaade paralleelpuudepanga märgendamiseks valitava formalismiga, et oleks võimalik kasutada mujal välja töötatud tarkvaralisi vahendeid puudepanga loomiseks ja kasutamiseks, näiteks päringu- ja visualiseerimisvahendeid.

Vastutav täitja (1)

IsikKraadTöökoht ja ametCVOsalemise periood
Tiit RoosmaadoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia dotsent (1.00);EST / ENG01.01.2008−31.12.2008

Põhitäitjad (3)

IsikKraadTöökoht ja ametCVOsalemise periood
Kaarel KaljuranddoktorikraadTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool; keeletehnoloogia erakorraline teadur (0.40);EST / ENG01.01.2006−31.12.2008
Krista LiinmagistrikraadEST / ENG01.01.2008−31.12.2008
Helen Nigolmagistrikraad (teaduskraad)Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, Üldkeeleteaduse osakond; spetsialist (1.00);EST / ENG01.01.2006−31.12.2008

Projektiga seotud tööjõud (5)

IsikKraadAsutusAmetKoormusKoormus väljaspoolOsalemise periood
ProjektisKoormus väljaspool
Heli Uibolektor0,2101.01.2006−31.12.2007
Kadri Muischnekteadur0,2101.01.2006−31.12.2007
Krista Liin0,301.01.2008−31.12.2007
Pilleriin Mutso0,301.01.2008−31.12.2007
Tiina Puolakainen0,301.01.2008−31.12.2007
Publikatsioonid
Publikatsioonid
Müürisep, K.; Nigol, H. (2007). Disfluency Detection and Parsing of Transcribed Speech of Estonian. Proceedings of 3rd Language & Technology Conference Human Language Technologies as a Challenge for Computer Science and Linguistics: 3rd Language & Technology Conference Human Language Technologies as a Challenge for Computer Science and Linguistics. Ed. Zygmunt Vetulani. Poznan, Poland: Wydawnictwo Poznanskie Sp. z o. o. with co-operation of Fundacja Uniwersitetu im. A. Mickiewicza, 483−487.
Müürisep, K.; Orav, H.; Õim, H.; Taremaa, P.; Vider, K.; Kahusk, N. (2007). From Syntax Trees in Estonian to Frame Semantics. The Third Baltic Conference on Human Language Technologies 2007: The Third Baltic Conference on Human Language Technologies, Kaunas October 4-5, 2007. Kaunas: Kaunas Vytautas Magnus University, 32−33.
Müürisep, K.; Nigol, H. (2007). Towards Better Parsing of Spoken Estonian. The Third Baltic Conference on Human Language Technologies 2007: The Third Baltic Conference on Human Language Technologies, Kaunas October 4-5, 2007. Kaunas: Kaunas Vytautas Magnus University, 34−34.
Nigol, H. (2007). Parsing Manually Detected and Normalized Disfluencies in Spoken Estonian. 16th Nordic Conference of Computational Linguistics NODALIDA-2007: NODALIDA, Tartu, 25.-26.05.2007. Ed. Nivre, J.; Kaalep, H.-J.; Muischnek, K.; Koit, M. Tartu: University of Tartu, 363−366.
Koit, M.; Roosmaa, T. (2007). Arvutilingvistika konverents Tartus. Keel ja Kirjandus, 9, 746−766.
Koit, M.; Roosmaa, T.; Õim, H. (2007). От синтаксиса к семантике – к выбору формализмов и лингвистических ресурсов. Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2007". Proceedings: International Conference "Dialogue 2007" , Bekasovo, 30 May - 3 June, 2007. Toim. L. Iomdin, N. Laufer, S. Narinjani, V. Selegei. Moscow: Izd-vo RGGU, 295−301.
Müürisep, K.; Nigol, H. (2008). Where Do Parsing Errors Come From: The Case of Spoken Estonian. In: Sojka, P.; Horak, A.; Kopecek, I.; Karel, P. (Ed.). Text, Speech and Dialogue (161−168).. Springer-Verlag. (Lecture Notes in Computer Science).10.1007/978-3-540-87391-4_22.
Müürisep, K.; Nigol, H. (2008). Suulise eesti keele süntaktiliselt märgendatud korpusest. VII rakenduslingvistika kevadkonverents, Keeleteaduse ainestikud ja andmekogude kasutamine.Teesid: VII rakenduslingvistika kevadkonverents, Keeleteaduse ainestikud ja andmekogude kasutamine. 24.–25. aprill 2008, Tallinn. Tallinn, 25.
Müürisep, K.; Nigol, H.; Uibo, H. (2006). Eesti suulise keele korpuse automaatne pindsüntaktiline analüüs. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (72−84).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Müürisep, K. (2006). Eestikeelsete tekstide sisukokkuvõtjast EstSum. Koit, M.; Pajusalu, R.; Õim, H. (Toim.). Keel ja arvuti (115−125).. Tartu: Tartu Ülikooli Kirjastus. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised; 6).
Müürisep, Kaili; Uibo, Heli (2006). Shallow Parsing of Spoken Estonian Using Constraint Grammar. Treebanking for Discourse and Speech. Proceedings of NODALIDA-2005 special session on treebanking: NODALIDA-2005 special session on treebanking, Joensuu, 2005. Ed. Peter Juel Henrichsen, Peter Rossen Skadhauge. Frederiksberg, Denmark: Samfundslitteratur, 105−118. (Copenhagen Studies in Language; 32).
Juhendamised
Juhendamised
Helen Nigol, magistrikraad (teaduskraad), 2006, (juh) Heli Uibo, Voorusisesed parandused, kordused ja valestardid suulises eesti keeles: nende tuvastamine ja normaliseerimine, Tartu Ülikool.
Krista Liin, magistrikraad, 2008, (juh) Kaili Müürisep, Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele, Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool.
Kaarel Kaljurand, doktorikraad, 2008, (juh) Norbert E. Fuchs; Kaili Müürisep, Attempto Controlled English as a Semantic Web Language (Piiratud inglise keel ACE kui semantilise veebi keel), Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut.