See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Eesti Teadusfondi uurimistoetus" projekt ETF5722
ETF5722 "Andmekaevanduse meetodid ja rakendused (DMMA) (1.01.2004−31.12.2006)", Jaak Vilo, Tartu Ülikool.
ETF5722
Andmekaevanduse meetodid ja rakendused (DMMA)
Data Mining Methods and Applications (DMMA)
1.01.2004
31.12.2006
Teadus- ja arendusprojekt
Eesti Teadusfondi uurimistoetus
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
4. Loodusteadused ja tehnika4.6. ArvutiteadusedT121 Signaalitöötlus 1.1. Matemaatika ja arvutiteadus (matemaatika ja teised sellega seotud teadused: arvutiteadus ja sellega seotud teadused (ainult tarkvaraarendus, riistvara arendus kuulub tehnikavaldkonda)50,0
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT181 Kaugseire2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)50,0
AsutusRollPeriood
Tartu Ülikoolkoordinaator01.01.2004−31.12.2006
PerioodSumma
01.01.2004−31.12.2004130 000,00 EEK (8 308,51 EUR)
01.01.2005−31.12.2005126 611,76 EEK (8 091,97 EUR)
01.01.2006−31.12.2006129 120,00 EEK (8 252,27 EUR)
24 652,75 EUR
0,00 EUR

Andmekaevanduse meetodite ja rakenduste projekti (DMMA, Data Mining Methods and Applications) käigus arendame meetodeid ja tehnikaid suurte andmehulkade analüüsiks, peamiselt biomeditsiini valdkonna vajadustele tuginedes. Biomeditsiin on lai valdkond hõlmates muu hulgas DNA, RNA ja valkude primaarjärjestusi, suure läbilaskevõimega mkrokiipide abil kogutud numbrilisi geeniekspressiooni andmeid, mitmeid muid molekulaarbioloogilisi andmeid, teadustekstide abstraktide andmeid (tekstide kaevandamine, text mining eesmärgiga eraldada tekstidest välja struktureeritud infot), andmeid inimeste haiguste (kliinilised, laboritulemused, jne) ja elustiili kohta, ning geneetiliste ja biomarkerite andmeid. DMMA projekti eesmärk on arendada välja arvutuslikke meetodeid erinevate andmetüüpide ja reaalsete andmekogude analüüsiks. Projekti käigus uurime erinevate rakenduste vajadusi ja teeme otsused konkreetsete analüüside läbiviimseks. Analüüsi käigus kogume kokku ja puhastame andmed, otsustame analüüsiformalismide, hinnangukriteeriumide üle, valime ja arendame edasi analüüsimeetodeid, ning arendame järeltöötlemise ning visualiseerimise vahendeid. Analüüsimeetoditest arendame edasi klasteranalüüsi, mustrite otsimist stringidest (sekventsidest), ja masinõppimise meetodeid. Rakendused on ennekõike geneetika ja terviseandmete analüüs ning erinevate bioloogiliste protsesside mehhanismide analüüs (alternatiivsplaissing) ning teadustekstide analüüs. Põhiolemuselt on DMMA projekt arvutiteaduse algoritmiliste meetodite ja andmekaevanduse ja andmeanalüüsi meetodite arendamise projekt. Seos rakendustega annab võimaluse leida selliseid probleeme millele tehniliste lahenduste leidmine toob praktikas kõige suuremat kasu.
In the Data Mining Methods and Applications (DMMA) project we will develop new Data Mining algorithms, techniques, and methods, mainly for the large-scale analysis of data from biomedical domain. These data are the primary sequences of DNA, RNA, and proteins, numerical data from high-throughput microarray gene expression measurements, scientific literature abstracts (text mining for extracting meaningful structure information from unstructured text), as well as several other types of experimental high-throughput molecular biology data. Additionally, we will explore data collected from medical records, lifestyle information, and genetic markers. The overall goal of the DMMA project is to develop methods suitable for large-scale analysis of such diverse data types and to satisfy various analysis needs. The main research questions that will be asked during each DMMA subproject are all those of a typical data mining project. We will start from studying the analysis needs of a particular application domain; combine and clean up data from different sources; decide about feature selection, knowledge representation formalisms, and evaluation criteria for the algorithms (MDL); explore the suitability and develop further the actual analysis algorithms (clustering methods, pattern discovery from the biosequences, and machine learning methods); and develop postprocessing methodologies and visualization techniques having end-users in mind. The proposed DMMA project is methods development project, the primary objective is novel algorithm development from the computer science viewpoint and data analysis techniques development from the data analysis viepoint. Applications enable to identify most urgent needs for the methods development.