See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Eesti Teadusfondi uurimistoetus (ETF)" projekt ETF9288
ETF9288 "Varjatud Markovi ahelad ja juhuslike jadade võrdlemine (1.01.2012−31.07.2016)", Jüri Lember, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF9288
Varjatud Markovi ahelad ja juhuslike jadade võrdlemine
Hidden Markov models and random sequence comparison
1.01.2012
31.07.2016
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus (ETF)
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
4. Loodusteadused ja tehnika4.4. MatemaatikaP160 Statistika, operatsioonanalüüs, programmeerimine, finants- ja kindlustusmatemaatika 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)100,0
PerioodSumma
01.01.2012−31.12.201213 680,00 EUR
01.01.2013−31.12.201313 680,00 EUR
01.01.2014−31.12.201413 680,00 EUR
01.01.2015−31.12.201513 680,00 EUR
54 720,00 EUR

Käesolev projekt on eelnevate ETFgrantide 5694 ja 7553 jätk. Projekt keskendub kahele olulisele uurimissuunale: 1) varjatud Markovi ahelad 2) juhuslike jadade võrdlemine. Neist esimene tegeleb (muuhulgas) järgmiste probleemidega: 1a) üldise segmenteerimisteooria väljatöötamine; 1b) Viterbi protsessi asümptootiliste omaduste tõestamine; 1c) osalise informatsiooni efektiive kasutamine segmenteerimisel; 1d) Varjatud Markovi ahelate parameetrite hidamisalgoritmide väljatöötamine; 1e) MCMC meetodite ühendamine üldise segmenteerimisteooriaga; 1f) uute segmenteerimismeetodide ja hindamisalgoritmide rakendamine praktikas, muuhulgas molekulaarbioloogias. Teine uurimissuund keskendub (muuhulgas) järgmistele probleemidele: 2a) pikima ühisjada pikkuse varieerumise dispersiooni kasvamise kiirus sõltumatute sama jaotusega juhuslike jadade korral; 2b) juhuslike jadade sõltuvuse määramine optimaalsete (pikima ühisjada mõttes) joonduste varieerumise kaudu; 2c) uute suboptimaalsete joonduste leidmine ja nende täpsuse hindamine suurte hälvete võrratuste kaudu; 2d) joonduskomponentide piirväärtuste olemasolu tõestus; 2e) juhuslike jadade sõltuvuse uurimine lokaalsete joonduste kaudu; 2f) erinevate eelpoolmainitud protseduuride rakendamine rallsetele andmetele. Mõlemad kirjeldatud uurimissuunad on olulised nii praktikas kui ka teoorias. Varjatud Markovi ahelate kasutamisvaldkond hõlmab nii kõnetuvastamist, signaalitöötlust, molekulaarbioloogiat, finantsmatemaatikat ja muud. Tihti on analüüsi eelsmärk segmenteerimine (varjatud realisatsiooni prognoosimine), kuid süstemaatilist segmenteerimisteooriat siiani kirjanduses pole. Eelnevate aastate jooksul on J. Lemberil (koos kaasautoritega) seelles suunas astunud olulise sammu, käesolev projekt jätkab seda tööd. Juhuslike jadade võrdlemine on keskne probleem bioinformaatikas. Enamasti möödetakse jadade sarnasust teatava skoori abil, juhuslike jadade korral on skoor juhuslik suurus, mille asümptootiliste omaduste leidmine on üllatavalt raske kuid seda olulisem probleem. Projekt keskendub eelkõige pikimale ühisjadale kuid käsitletakse ka muid skoore ning lokaalseis joondusi.
The project is a continuation of the ETF grants 5694 and 7553. With some changes of accents, the research areas of the present project are largely the same as those of the previous grants. The project is mainly focused on two major research fields: hidden Markov models and random sequence alignment. Such a choice is driven by the practical importance: both areas have many applications including (among others) signal processing, language modeling, speech recognition, molecular biology. Among others, the current project aims to solve the following problems. 1) Developing the general theory of segmentation in the framework of statistical learning. 2) Developing the framework of proving limit theorems for Viterbi process. 3) Showing the effect of choosing the asymptotically most informative observations for partial revealing. 4) Existence of infinite PMAP-alignment, finding its properties. 5) Developing segmentation-based training; investigating its possibilities for applying in practice. 6) Applying theory of segmentation and segmentation based training ideas in Bayesian setup; improving existing MCMC methods. 7) Implementing the new segmentation methods and segmentation based training ideas in practice; in particular for gene finding. 8) Confirming/rejecting Chvatal-Sankoff conjecture in more general setups. 9) Finding out a suitable criterion of dependence based on the size of the set of optimal alignments. 10) Developing general procedures for calculating efficiently good suboptimal alignments, determine its properties via large deviation inequalities. 11) Proving/disproving the existence of limit proportion of aligned letters and gaps for general scoring. 12) Determining how several dependence models influence the asymptotic of local alignments. 13) Applying several sequence-comparison ideas above like the variety of optimal alignments and efficient suboptimal alignments for real data-sets on molecular biology.
Peamine uurimistöö keskendus kahele suunale: 1. Varjatud Markovi ahelad: 1a) üldise segmenteerimisteooria väljatöötamine; Teooria põhialused koos näidetega avaldati artiklis. 1b) Viterbi protsessi asümptootiliste omaduste tõestamine; Ilmus artikkel asümptootiliste riskide olemasolust. 1c) osalise informatsiooni efektiive kasutamine segmenteerimisel; Ilmus artikkel osalise informatsiooni õigest ärakasutamisest Viterbi joonduse parandamisel 1d) MCMC meetodite ühendamine üldise segmenteerimisteooriaga; Uurisime Viterbi segmenteerimist Bayesi kontekstis, võrdlesime erinevaid Viterbi joonduse leidmise algoritme, nii stohhastilisi kui determineerituid; simulatsioonid. Vastav artikkel esitatud avaldamiseks. 2. Juhuslike jadade võrdlus: 2a) pikima ühisjada pikkuse varieerumise dispersiooni kasvamise kiirus sõltumatute sama jaotusega juhuslike jadade korral; Selles valdkonnas esitasime üldise teooria juhuslike jadade skoori kumera funktsiooni asümptootilise käitumise uurimiseks. Teooria rakendub nii dispersioonile kui ka kõigile teistele momentidele. Samuti võimaldab teooria uurude sõltuvaid jadu. Tulemused mitmes artiklis. 2b) juhuslike jadade sõltuvuse määramine optimaalsete (pikima ühisjada mõttes) joonduste varieerumise kaudu; Artikkel sõltuvate jadade optimaalsete joonduste hulga varieerumiskiirusest. Uurisime selle meetodi rakendamist jadade homoloogsuse kindlaksmääramisel ja võrdlesime seda teiste meetoditega. 2c) Uute suboptimaalsete joonduste leidmine ja nende täpsuse hindamine suurte hälvete võrratuste kaudu; Artikkel eelisõigusega tähtedega joonduse keskmise skoori arvutamisest, suurte hälvete võrratus. 2d) Joonduskomponentide piirväärtuste olemasolu tõestus; Ilmus artikkel joonduse skoori ja deltaparameetri seostest. Põhihüpoteesi tõestus väikese delta korral. 2e) Permutatsioonikoodid ja pikim kasvav ühisjada. Seos permutatsioonikoodide ja Bayk-Deft-Johansoni teooria vahel.