"Eesti Teadusfondi uurimistoetus" projekt ETF7437
ETF7437 "Paljude geeniekspressiooniandmete ühisanalüüs (MEM) (1.01.2008−31.12.2011)", Jaak Vilo, Tartu Ülikool, Matemaatika-informaatikateaduskond.
ETF7437
Paljude geeniekspressiooniandmete ühisanalüüs (MEM)
Multi-experiment gene expression data matrix analysis (MEM)
1.01.2008
31.12.2011
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedP170 Arvutiteadus, arvutusmeetodid, süsteemid, juhtimine (automaatjuhtimisteooria)1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)34,0
4. Loodusteadused ja tehnika4.16. Biotehnoloogia (loodusteadused ja tehnika)T490 Biotehnoloogia 2.3. Teised tehnika- ja inseneriteadused (keemiatehnika, lennundustehnika, mehaanika, metallurgia, materjaliteadus ning teised seotud erialad: puidutehnoloogia, geodeesia, tööstuskeemia, toiduainete tehnoloogia, süsteemianalüüs, metallurgia, mäendus, tekstiilitehnoloogia ja teised seotud teadused).33,0
3. Terviseuuringud3.1. BiomeditsiinB726 Kliiniline bioloogia 3.1. Biomeditsiin (anatoomia, tsütoloogia, füsioloogia, geneetika, farmaatsia, farmakoloogia, kliiniline keemia, kliiniline mikrobioloogia, patoloogia)33,0
PerioodSumma
01.01.2008−31.12.2008271 200,00 EEK (17 332,84 EUR)
01.01.2009−31.12.2009260 352,00 EEK (16 639,53 EUR)
01.01.2010−31.12.2010236 660,00 EEK (15 125,33 EUR)
01.01.2011−31.12.201115 124,80 EUR
64 222,50 EUR

Viimase kümne aasta jooksul on geeniekspressiooni (mRNA) mõõtmine mikrokiipe kasutades muutunud igapäevaseks rutiiniks, mis võimaldab kiiresti mõõta rakkude sisemist „olekut“ ehk rakkude aktiivsust geenide transkriptsiooni tasemel. Enamik publitseeritavaid ekspressiooni andmeid avaldatakse avalikes andmebaasides (GEO, ArrayExpress), soodustades vaba info vahetust. Senini on andmebaasid toiminud peamiselt andmete hoidlana, kuid praegune uurimise fookus suundub küsimustele – kuidas muuta andmed lihtsamini tõlgendatavaks ning millised peavad olema päringusüsteemid ja kasutajaliidesed, mis võimaldavad kasutajatel kasutada ning analüüsida kõiki (või paljusid, olulisi) andmestikke korraga. Meie projekti eesmärk on töötada välja intelligentsetel andmeladudel baseeruvad meetodid, mis võimaldavad interaktiivseid ühispäringuid mahukatest andmetest ning anda kasutajatele mugavalt tõlgendatavaid vastuseid. Projekti käigus vajavad lahendamist erinevate andmestike normaliseerimine; erinevate platvormide võrreldavaks tegemine; tulemuste tõlgendamine ja visualiseerimine; statistilise olulisuse hindamine; päringute kiiruse tagamine mahukamate andmestike peale jne. Seejuures võivad andmestikud pärineda erinevatelt tehnoloogilistelt platvormidelt (Affymetrix, Illumina) ning kirjeldada sarnast või erinevat bioloogilist tingimust (mõõdetavad tingimused võivad varieeruda kiipide vahel). Samuti on vaja luua mõistete süsteem, mis aitaks kasutajatel tõlgendada tulemusi (näit. geen on reeglina ekspresseerunud maksas; geen avaldub embrüo arengu algfaasis). Käesolev bioinformaatika teadusvaldkonna projekt sisaldab algoritmika, statistika, tekstide kaevandamise kui kasutajaliideste disaini ja graafilise visualiseerimise komponente.
Gene expression (mRNA) data measurements using DNA microarrays have in the last ten years become a mainstream technology for measuring cellular „states“ of the cells. Most of the published data is being submitted into databases like ArrayExpress and GEO. This supports the free exchange of information and promises many new advances by combining these different data. The major microarray databases have so far acted mostly like data repositories, storing individual data sets with enough attached annotations. The focus is however turning into the question, of how to make a combined use out of all the stored data. Most importantly, which query formalisms and user interfaces allow users to better interpret the overall meaning of the data when combining many, if not all the data. The goal of our project is to develop warehousing strategies and tools for enabling interactive exploratory querying from large collections of public high-throughput data sets. During the project we will need to deal with the issues like normalization of data from different labs and data acquisition platforms; making different data sets “comparable”; interpreting and visualization of the query results; estimation of the statistical significance; and scaling the query speed for very large data sets to support the interactive on-line use. The data sets, we assume, will come from different platforms (Affymetrix, Illumina, etc), different species and conditions. We want to provide users with higher-level understanding like where (e.g. healthy liver or breast tumor) and when (e.g. embryo; or adult) are the genes of interest expressed, when do they show differential expression (stress; aging), etc. Current research proposal in bioinformatics will also combine the elements of algorithmic research, statistics, text mining, graphical user interface design and visualization.