See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Eesti Teadusfondi uurimistoetus" projekt ETF8789
ETF8789 "Osakogumite hinnangute kooskõla saavutamine andmeallikate paljususe korral (1.01.2011−31.12.2014)", Imbi Traat, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF8789
Osakogumite hinnangute kooskõla saavutamine andmeallikate paljususe korral
Consistency of domain estimators in case of multiple data sources
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.5. StatistikaP160 Statistika, operatsioonanalüüs, programmeerimine, finants- ja kindlustusmatemaatika 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2011−31.12.201112 271,20 EUR
01.01.2012−31.12.201212 271,20 EUR
01.01.2013−31.12.201312 271,20 EUR
01.01.2014−31.12.201412 271,20 EUR
49 084,80 EUR

Uurime suurt rakenduslikku tähtsust omavat probleemi kaasaegses infoühiskonnas, kuidas saavutada hinnangute kooskõla paljude andmeallikate olemasolul. Vaatleme ühe või mitme klassifitseeriva tunnuse abil moodustatud osakogumeid, üldkogumi alamgruppe. Osakogumeid identifitseerivad tunnused ja uuritav tunnus y on registreeritud valikuuringus. Soovime antud valikuuringust hinnata y-tunnuse kogusummasid osakogumite kaupa, seda kooskõlaliselt teistest allikatest teadaolevate marginaalsete y-kogusummadega. Kooskõlalisus tähendab, et hinnanguid sobivalt üle osakogumite summeerides peame saama marginaalsed kogusummad. Probleemi erijuhte on vaadeldud varem. Juba 1940 pakkusid Deming ja Stephan välja iteratiivse meetodi, kuidas valimist hinnata sagedustabelit nii, et tabeli sagedused summeeruksid teadaolevateks marginaalseteks sagedusteks. Deville, Särndal ja Sautory (1993) vaatasid probleemi üldisemal tasemel ja näitasid, et Demingi ja Stephani meetod on teatav kalibreerimise erijuht. Meie tahame probleemi veelgi üldisemalt vaadata, st mitte üksnes sageduste kooskõlalist hindamist vaid suvalise y-tunnuse kogusummade kooskõlalist hindamist osakogumites. Oleme probleemi uurimisega juba alustanud ja näeme ees palju võimalusi. Sõstra, Traat (2009) vaatlesid ühe klassifitseeriva tunnuse abil moodustatud osakogumeid ja nõudsid, et osakogumihinnangud oleksid kooskõlalised üldkogumi teadaoleva kogusummaga. Välja pakutud üldine kitsendustega hinnang osutus küll optimaalseks, aga praktikas mõneti raskesti kasutatavaks. Seetõttu pöörasime tähelepanu kalibreerimis- ja korduvkaalumise meetoditele. Esimesed tulemused on kirja pandud ühisuurimuses Traat, Särndal (2009). Edaspidi on plaanis tuletada meie kooskõlaliste hinnangute dispersioonihinnangud (arvestades ka täiendavat juhuslikkuse allikat, mis tuleneb hinnangulistest marginaalsetest kogusummadest), võrrelda erinevaid hinnanguid, uurida optimaalsuse ja rakendatavuse probleeme, tuletada erijuhte ja seostada neid varasemate tulemustega, kui on olemas. Selles valdkonnas töötab ka doktorant N. Lepik. Lõpuks on vaja meetodeid rakendada reaalelulistes ülesannetes, näiteks Eesti Statistikaameti omades. Siin saavad oma panuse anda põhitäitjad E.-M. Tiit ja K. Sõstra. Rohkearvuliselt on teemasid magistrantidele ja/või uuele doktorandile. Jätkame töid/tegevusi ka rahvusvahelises plaanis, nagu näiteks osalemine Balti- ja Põhjamaade valikuuringute alane võrgustikus.
We study an important problem in the nowadays information society; how to achieve consistency of estimates in the presence of multiple data sources. We consider domains, the population subgroups, formed by one or several classification variables. The variables identifying these domains and the study variable y are observed in a sample survey. Our aim is to estimate y-totals by domains consistently with marginal totals taken from another data source. Consistency here means that by appropriately summing domain estimates, we get the marginal totals. Special cases of the problem are considered earlier. Already in 1940 Deming and Stephan elaborated an iterative method for estimation of a frequency table so that table frequencies will sum up to the known marginal totals. Deville, Särndal and Sautory (1993) treated this problem in a higher level and showed that the Deming-Stephan’s method is certain calibration case. Our aim is further generalization. We wish to estimate not only table frequencies but the totals of any study variable in domains, consistently. We have started our studies already and we see many challenges ahead. Sõstra, Traat (2009) considered domains formed by one classification variable and demanded consistency of domain estimates with the known population total. The elaborated general restriction estimator turned out to be optimal in certain class but it was rather difficult to apply in practice. Therefore we turned our attention to the calibration and repeated weighting methods. The first results are put down in a joint research Traat, Särndal (2009). Further, we plan to derive variance estimators of our consistent domain estimators (taking into account additional randomness coming from the estimated marginal totals), to compare different estimators, to study their optimality and applicability problems, derive special cases and relate them to the earlier results, if exist. The principal member of the working group N. Lepik works with these issues for her Ph.D. Theses. Finally the methods need to be applied in real life situation. The principal members E.-M. Tiit and K.Sõstra can give their contribution here. Many topics are available for master students and/or for a Ph.D. student. We will continue our activities in the international direction, like e.g. participation in the Baltic-Nordic Network in Survey Sampling Theory and Methodology.
Vastavalt grantiprojekti eesmärkidele uurisime osakogumite kooskõlalist hindamist andmeallikate paljususe olukorras. Publitseeriti artiklid (klassifikatsioonis 1.2) Särndal, Traat (2011) , Lumiste (2011) ja kaitsti doktoritöö Lepik (2011). Nendes uurimustes konstrueeriti osakogumite hinnangud, mis on kooskõlalised teadaoleva informatsiooniga teistest uuringutest või andmekogudest. Saadud hinnangud olid teatud juhul täpsemad, kui esialgsed kitsendusi mitterahuldavad hinnangud. Teatavas hinnangute klassis oli võimalik ka täpseim hinnang määrata. Tähtsaimad andmekogud Eestis on Rahvastikuregister ja rahvaloendusest saadud andmed. Need on hindamatuteks lisainformatsiooni allikateks valimil põhinevates uuringutes. Artiklites Tiit (2013-2014) kirjeldatakse rahvaloenduse metoodikat, võrreldakse andmekogusid ja analüüsitakse neis peituvat informatsiooni. Valikudisain on üks võtmemõisteid uuringuandmete kogumisel. Valikudisainide teoreetilisi omadusi uuriti ühisartiklites (klassifikatsioon 1.1) Bondesson, Traat (2013) ja Bondesson, Grafström, Traat (2014). Näidati, et mõnedel tuntud valikudisainidel on järjestatud tinglikud kaasamistõenäosused, seda vastavalt esimest järku kaasamistõenäosustele. Samuti defineeriti lineaar- ja ruutvalikudisainide klassid, mis erijuhtudena sisaldavad teatavaid varemtuntud valikudisaine. Uuriti omadusi. Grantiprojekti eemärgiks oli ka tudengite erialase kompetentsuse tõstmine. Projekti toetusel jätkus iga-aastaste valikuuringute-statistika alaste workshoppide korraldamine Balti-Põhjamaade-Ukraina võrgustiku raames. Projekti kraadiõppurid Aru, Lepik, Lumiste esitasid sellel rahvusvahelisel areenil oma tulemusi ja publitseerisid neid vastavates kogumikes. Viimane rahvusvaheline koostöö Lumiste, Särndal, Traat finišeerus neljandal granti aastal ajakirjale esitatud artikliga "Reducing the response imbalance: Is the accuracy of the survey estimates improved?" Vastanute hulga tasakaalustamine on käesoleval ajal kuum uurimisteema. Seda on uuritud ka artiklis Lumiste (2014).