"Eesti Teadusfondi uurimistoetus" projekt ETF7553
ETF7553 "Varjatud juhuslikkus: teooria ja rakendused (1.01.2008−31.12.2011)", Jüri Lember, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF7553
Varjatud juhuslikkus: teooria ja rakendused
Hidden randomness: theory and applications
1.01.2008
31.12.2011
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.5. StatistikaP160 Statistika, operatsioonanalüüs, programmeerimine, finants- ja kindlustusmatemaatika 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2008−31.12.2008150 000,00 EEK (9 586,75 EUR)
01.01.2009−31.12.2009144 000,00 EEK (9 203,28 EUR)
01.01.2010−31.12.201087 696,00 EEK (5 604,80 EUR)
01.01.2011−31.12.20115 605,20 EUR
30 000,03 EUR

Käesolev projekt on ETF grandi 5694 "Varjatud juhuslikud struktuurid" edasiarendus. Peamised uurimissuunad on varjatud Markovi ahela (HMM) parameetrite hindamine, juhuslike jadade võrdlus (sequence alignment) ja koodi restaureerimine (scenery reconstruction). Uue uurimisvaldkonnana lisandub Bayesi adaptsioon. HMM parameetrite hindamiseks töötasime grandi 5694 raames välja uue treeningalgoritmi - parandatud Viterbi treening (adjusted Viterbi training, AVT) - teoreetilised alused. Simulatsioonid näitasid, et oma täpsuselt on AVT võrreldav EM algoritmiga, kuid arvutuslikult on ta palju odavam. Edasine töö seisneb AVT arendamises reaalsete andmetele sobivaks praktiliseks töövahendiks, samuti tema teoreetiliste omaduste uurimises. Peamine kaasautor siin on A. Koloydenko Nottinghami ülikoolist. Grandi 5694 raames alustasime koos H. Matzingeriga (Georgia Tech ja Bielefeldi ülikool) sõltumatute Bernoulli jadade pikima ühisjada (LCS) asümptootika uurimist. Eelkõige keskendusime LCS pikkuse dispersiooni kasvamiskiiruse uurimisele. Tõestasime, et mitmel puhul kasvab dispersioon lineaarselt, lükates niiviisi ümber nn Chvatal-Sankovi hüpoteesi aastast 1975. Käesoleva projekti raames jätkame LCS dispersiooni kasvamiskiiruse kindlakstegemist üha üldisematel eeldustel. Uue suunana uurime kahe jada optimaalsete vastandamiste (optimal alignments) varieeruvust. Esalgsed simulatsioonid on näidanud, et sõltumatute jadade korral on nimetatud vrieeruvus suurem kui sõltuvate jadade korral. Kui nii, siis oleme leidnud uue võimsa instrumendi jadade (näiteks DNA järjestuste) seotuse kindlakstegemiseks. Koodi restaureerimisel jätkame grandi 5694 raames alustatud tööd. Eelkõige keskendume kahendkoodi restaureerimisele. See on tehniliselt väga mahukas ja tuleb läbi viia mitmes etapis. Peamine kaasautor on H. Matzinger. Uue teemana uurime tõenäosustiheduse hindamist Bayesi meetodil. Vaatleme olukorda, kus mudeleid on mitu ja igühele neist on võimalik konstrueerida teatavas mõttes optimaalselt koonduvat järelmõõtu tagav eelmõõt. Et me aga ei tea, milline mudelitest sisaldab tegelikku tihedust, soovime omakorda mudelitele seada eelmõõdu nii, et keskmistatud järelmõõt oleks optimaalne. See on mitteparameetriline Bayesi adaptsioon. Eesmärk on üldiste adapteerimisprintsiipide väljatöötamine ja nende rakendused nn klassikalistel mudelitel nagu Hölderi klass, log-splainid jne. Peamised kaasautorid on A. van der Vaart (Amsterdami vaba ülikool) ja S. Ghosal (North-Carolina ülikool).
This project is a continuation of the ETF grant 5694 "Hidden random structures". The main research topics are still the iterative algortihms for Hidden Markov model (HMM) estimation, sequence alignment and scenery reconstruction. A completely new area is the Bayes adaptation. In the course of ETF 5694, a new training algorithm for HMM estimation - adjusted Viterbi training (AVT) - was developed. The simulations showed the good performance of AVT, being computationally cheap but yet comperable with the EM algorithm. Thue future research will be focused on the practical implementation AVT training as well as on its theoretical properties. The main co-author is A. Koloydenko (University of Nottingham). In the course of ETF 5694, the asymptotic of the longest common subsequence (LCS) of two independent sequence were studied. The main interest was the order of variance of the length of LCS. With H. Matzinger (GeorgiaTech and Bielefeld university), we proved that for many cases the order of variance is linear, contradicting the so-called Chvatal-Sankoff conjecture (1974). In this project, we shall continue the order of variance in more general setup. As a new direction, the varity of the optimal alignments (not necessarily in LCS sense) will be studied. The first simulations show that for the independent sequence, the set of optimal alignments are more spread out as that of the related sequences. If so, the it is possible to develope a new powerful tool for determing whether two sequences (like DNA alignments) are related or not. In the scenery reconstruction, we shall continue the work of ETF 5694 project. The main focus is the reconstruction of random 2-color scenery. The co-autor is H.Matzinger. As a completely new field of this project is the non-parametric density estimation with Bayesian methods using the hierarchical priors. We consider the collection of models, each of them having a prior such that the posterior converges to the true density with optimal rate given, of course, that the true density is in this particular model. The purpose is to find a prior on the collection of models so that the overall posterior would still converge with optimal rate. This is non-parametric Bayesian adaptation. We shall study the general construction of rate-adaptive priors as well as the applications on Hölder classes and log-spline models. The co-authors are A. van der Vaart (free university of Amsterdam) and S. Ghosal (North-Carolina state university).