See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Eesti Teadusfondi uurimistoetus (ETF)" projekt ETF5787
ETF5787 "Mitmesõnaliste verbide struktuur eestikeelsetes tekstides (1.01.2004−31.12.2007)", Heiki-Jaan Kaalep, Tartu Ülikool, Filosoofiateaduskond.
ETF5787
Mitmesõnaliste verbide struktuur eestikeelsetes tekstides
The structure of multi-word verbs in Estonian texts
1.01.2004
31.12.2007
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus (ETF)
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH670 Ameerika keeled ja kirjandus, kreoolikeeled6.2. Keeleteadus ja kirjandus50,0
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT181 Kaugseire2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2004−31.12.2007
PerioodSumma
01.01.2007−31.12.200742 240,00 EEK (2 699,63 EUR)
01.01.2006−31.12.200642 240,00 EEK (2 699,63 EUR)
01.01.2004−31.12.200444 000,00 EEK (2 812,11 EUR)
01.01.2005−31.12.200541 411,76 EEK (2 646,69 EUR)
10 858,06 EUR

Põhieesmärke on kaks. 1. Leida seaduspärasused, mis võimaldaksid reaalses tekstis esinevaid mitmesõnalisi verbe automaatselt ära tunda. Need seaduspärasused peaksid olema piisavalt universaalsed ja formaliseeritud, et nende alusel saaks luua lingvisti töövahendi - arvutiprogrammi, mis analoogiliselt sõnavorme analüüsivale morfoloogilisele analüsaatorile oskab leida tekstis oleva väljendi kanoonilise e. algvormi-kuju. Seejuures enne peaks see programm oskama konteksti alusel öelda, kas antud väljend üldse selles lauses esineb. 2. Kasutades loodud programmi, leida 1-miljoni sõnalisest tekstikorpusest üles mitmesõnalised verbid (mille loendi aluseks on aadressil http://www.cl.ut.ee/ee/ressursid/pysiyhendid.html olev andmebaas) ja märgendada nad. Programmi loomiseks ja testimiseks võetakse varem morfoloogiliselt märgendatud ja ühestatud tekstikorpus (200 000 sõna) ning märgendatakse seal püsiväljendid käsitsi. Seejuures tuleb lahendada teoreetiline probleem (verbikeskse) püsiühendi piiridest. Nii ongi lingvistilisest aspektist huvipakkuvaks probleemiks väljendverbide hulga piiritlemine prototüüpset väljendverbi defineerivate tunnuste määratlemise näol ja selle kirjeldamine, mis juhtub nende tunnustega väljendverbi järk-järgulisel üleminekul vabaks ühendiks.Teoreetilises mõttes on väljendverbi nominaalse komponendi kivinemise, adverbistumise (nt. "lokku lööma") näol tegemist ühe eesti keelele iseloomuliku grammatikaliseerumise tüübiga. Loodavat arvutiprogrammi võib kasutada iseseisvalt lingvisti töövahendina, nagu meil on kavas kasutada väljendite sageduste leidmiseks. Mis veel olulisem: ta oleks ka oluline komponent eesti keele masintöötluse kõigil etappidel - morfoloogilisel ühestamisel, süntaktilisel analüüsil ja sünteesil ning semantilisel ühestamisel. Sagedus-infoga varustatud väljendite andmebaasi saab kasutada ka eesti keele kui võõrkeele õppes.
There are two main goals. 1. Find the regularities that would make it possible to automatically recognize the multi-word verbs in a text. The regularities should be expressed in a formal way so that one could create a tool for a linguist - a computer program for finding the base form of a multi-word expression, much alike a morphological analyser for finding the base form of a word-form. In addition to that, the program should be able to tell if the sentence contains the expression in the first place at all. 2. Using the program, find multi-word verbs in a 1-million word text corpus and tag them. The list of possible multi-word verbs will be derived from http://www.cl.ut.ee/ee/ressursid/pysiyhendid.html. To create and test the program, the multi-word expressions in a previously morphologically tagged text corpus of 200,000 tokens will be annotated manually. The problem of limiting and precisely defining the borderlines of a verb-centred multi-word unit has to be solved during the project. Thus the most interesting problem linguistically is how to limit the set of noun-verb combinations, by finding the features that define a prototypical multi-word verb, and describing what happens with the features when we gradually move from a multi-word verb towards a free combination. The process when the noun becomes rigid in the context of a certain noun plus verb combination represents a type of grammaticalization in Estonian. The computer program can be used independently as a linguist's tool, just the way we plan to use it for finding the frequencies of the multi-word expressions. More importantly, the program would be a crucial part of any language processing tool to improve the quality of processing Estonian in all stages - morphological disambiguation, syntactic analysis and semantic disambiguation. The database of multi-word expressions, enriched with frequencies, can also be used in language teaching.