"Personaalne uurimistoetus" projekt PUT1358
PUT1358 "Mudelite loomine ja lõhkumine: Klassifitseerimismudelite valideerimine keeleteaduses (1.01.2017−31.12.2020)", Jane Klavan, Tartu Ülikool, Humanitaarteaduste ja kunstide valdkond, maailma keelte ja kultuuride kolledž.
PUT1358
Mudelite loomine ja lõhkumine: Klassifitseerimismudelite valideerimine keeleteaduses
The Making and Breaking of Models: Experimentally Validating Classification Models in Linguistics
1.01.2017
31.12.2020
Teadus- ja arendusprojekt
Personaalne uurimistoetus
Stardiprojekt
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus100,0
PerioodSumma
01.01.2017−31.12.201736 000,00 EUR
01.01.2018−31.12.201836 000,00 EUR
01.01.2019−31.12.201936 000,00 EUR
01.01.2020−31.12.202036 000,00 EUR
144 000,00 EUR

Statistiliste mudelite kasutamine keeleteaduses on viimastel aastatel massiliselt kasvanud. Seni on vähe uuritud, millised on need keelesüsteemi aspektid, mida need mudelid kirjeldavad. Projekti raames kasutatakse erinevaid keeleuurimise meetodeid, et jõuda sügavama ja täpsema arusaamiseni keeleteaduses kasutatavatest statistilistest mudeldamistehnikatest. Statistiliste mudelite mõistmine mõjutab otseselt, kuidas empiirilisi andmeid on võimalik kasutada sisendina kognitiivselt usutavate keeleteooriate loomisel. Projektis keskendutakse järgnevatele uurimisküsimustele: Kui hästi töötavad erinevad statistilised mudeldamistehnikad ühe ja sama keeleandmestiku peal? Kui hästi töötavad need masina-põhised tehnikad võrrelduna inimestega? Milliseid (keeleteaduslikke) tunnuseid korjavad üles inimesed ja milliseid masinad? Selleks, et „luua“ kognitiivselt usutavaid statistilisi mudeleid on vajalik need mudelid „lõhkuda“ pannes nad võistlema teineteise ja inimeste vastu.
Recent years have witnessed an exponential growth in the use of statistical modelling techniques to analyse linguistic data. There are only few studies that pay close attention to the aspects of the language system captured by these models. The proposed project will use methodological pluralism to enhance our understanding of the mathematical properties underlying the statistical modelling techniques now commonly used in linguistics, impacting directly on how empirical data feeds into constructing cognitively realistic linguistic theories. The project focuses on the following questions: How well do different modelling techniques perform on the same linguistic data? How well do humans perform in comparison to machines? Which (linguistic) features are picked up by both machines and humans? The project proceeds from the assumption that in order to make statistical models, we need to break them by pitting them against each other and against human behaviour in experimental settings.