"Riiklik programm: Eesti keeletehnoloogia" projekt EKT6
EKT6 "Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine (1.01.2011−31.12.2014)", Eola Valdre, Tartu Ülikool, Filosoofiateaduskond.
EKT6
Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ValdkondAlamvaldkondCERCS erialaFrascati Manual’i erialaProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH350 Keeleteadus6.2. Keeleteadus ja kirjandus75,0
3. Terviseuuringud3.7. Kliiniline meditsiinB725 Diagnostika 3.2. Kliiniline meditsiin (anestesioloogia, pediaatria, sünnitusabi ja günekoloogia, sisehaigused, kirurgia, stomatoloogia, neuroloogia, psühhiaatria, radioloogia, terapeutika, otorinolarüngoloogia, oftalmoloogia)25,0
AsutusRollPeriood
Tartu Ülikool, Filosoofiateaduskondkoordinaator01.01.2011−31.12.2014
PerioodSumma
01.01.2011−31.12.201122 000,00 EUR
01.01.2012−31.12.201217 000,00 EUR
01.01.2013−31.12.201323 320,00 EUR
01.01.2014−31.12.201423 320,00 EUR
85 640,00 EUR

Projekt on keeleressursse loov: koostatakse autentse eesti meditsiinikeele korpus, mida kasutatakse radioloogia elektroonse piltsõnastiku loomisel. Põhieesmärgid hõlmavad programmi „Eesti keeletehnoloogia 2011 2017“ 2. punkti kaht alategevust: eesti teaduskeele korpuse koostamist ning elektroonsete sõnastike ja ontoloogiliste andmebaaside arendust, standardimist ning avaliku kasutuse võimaldamist. Olemasolevaid projekte ei dubleerita, kuid autentse meditsiinikeele korpuse koostamiseks on esitatud taotlus ka programmi „Eesti keel ja kultuurimälu“ kaudu. Projekt on TÜ Eesti ja üldkeeleteaduse instituudi, AS Ida-Tallinna keskhaigla ja TTÜ kliinilise meditsiini instituudi koostöös valmiva doktoritöö „Eestikeelsete autentsete meditsiinitekstide kui meditsiini allkeele uurimine: mitmetähenduslikkuse allikad ning sünonüümia ja tähenduse vahekord“ (E. Valdre; juh. H.-J. Kaalep, P. Ross) osa. Projekti kestus on 4 aastat. Eesti meditsiinikeelel on kirjakeeles kaks allkeelt: akadeemiline keel, mis on nii õpetus- kui ka publitseerimiskeel, ja autentne (toimetamata) terviseandmete kirjeldamise keel. Terviseandmete registreerimine, säilitamine ja analüüs on tähtis patsiendi diagnostika ja ravi, rahvatervise ja teadusuuringute jaoks. Üleriigiline e-tervise infosüsteem võimaldab suurtes andmemassiivides kätketud teabe analüüsi, kuid erinevalt numbrilistest või kodeeritud andmetest teeb mitmetähenduslikku tõlgendust lubav keelekasutus tekstide automaatse analüüsi tüsilikuks. Seoses inimeste ja teenuste vaba liikumisega EL-is on probleem ka terviseandmete tõlkimine. Just rakenduslikust aspektist on tähtis mõista teksti mitmetähenduslikkuse allikaid. See võimaldab patsiendile mõistetavat terviseandmete esitust; andmekaeve, analüüsi ja tõlkerakenduste loomist ning toetab omakeelset arstiteadust ja keelekasutuse ühtlustamist meditsiinis. Eestis ei ole autentset meditsiinikeelt uuritud. Tegu on mittestandardse kirjakeelega (E. Valdre magistritöö, TÜ 2010), mille kirjeldamiseks olemasolevad korpused (sh „Eesti Arsti" korpus, K. Veskis) ei sobi. Vaja on representatiivset keelekorpust. See koosneks isikustamata tekstidest, mida ei saa seostada konkreetse patsiendiga. Alustada sobib radioloogilistest kirjeldustest, mille arv on väga suur (EL-s ligi 500 miljonit uuringut aastas). Hinnanguliselt moodustavad need Eesti e-tervise infosüsteemi tekstidest pea 30%, haiguslugudes on osakaal 5–10% (P. Ross). Kliiniline sisu on piiritletud: seda kitsendavad uuringu liik, konkreetsed ruumisuhted (nt kehapool), anatoomilised struktuurid ja seotus vaid kindla patoloogiaga. Teksti struktuur on põhjendatud kliinilise kontekstiga, muust tekstist eristuvad terminid ning allkeelele iseloomulikud keelendid. Sünonüümia ja arbitraarne lühendamine on autentses tekstis palju levinumad kui akadeemilises, mis tingib suurema variatiivsuse ning polüseemia. Ebatüüpiline süntaks, sünonüümide ja lühendite rohkus ning tegelikku keelekasutust kajastavate sõnastike puudumine raskendavad tõlkimist ja päringuid oluliselt. Korpuse analüüs ja radioloogiasõnastik kui prototüüp võimaldaksid teiste meditsiinivaldkondade andmebaaside hõlpsamat loomist. Lähtudes eelpool öeldust, on projekti eesmärgiks koostada autentse eesti meditsiinikeele korpuse alusel radioloogia elektroonne piltsõnastik. 1.Korpuse koostamine. Ülesehituselt on korpus avatud ning vabalt kasutatav keeleressurss, mahuks on 2007. 2009. a andmete põhjal planeeritud 15 miljonit sõnet. See koostatakse Ida-Tallinna Keskhaiglas aastatel 2007–2010 tehtud röntgen-, kompuuter- ja magnetuuringute isikustamata kirjeldustest. Päringu aluseks on Tallinna Meditsiiniuuringute Eetikakomitee otsus nr 2169. Korpuse märgendatakse morfoloogiliselt ja ühestatakse, esitusviis on XML. Morfoloogiline analüsaator kohandatakse just selle tekstitüübi jaoks. Kasutatakse analoogiat teiste mittestandardse kirjaviisi korpustega ja nende loomisel kasutatud tarkvara. Tekstid korrastatakse, sh luuakse mitmesuguste leksikaalsete üksuste (lühendid, ladinakeelsed terminid, automaatselt tuvastatavad püsiühendid) andmebaas. Leksikonid seotakse korpusega, sellega seoses korrastatakse nii korpus kui leksikonid lõplikult ning pannakse tasuta kasutamiseks välja. 2.Radioloogia piltsõnastiku koostamine. Radioloogiline kujutis seotakse sõnastiku andmebaasiga nii, et pildil olevale struktuurile klõpsates on näha tekstivaste, millega on andmebaasis seotud määratlus, sünonüümid, inglisekeelne vaste ning klassifikaatori kood. Alustatakse prototüübist, mis hõlmab lülisamba magnetuuringutega kirjeldatavat normaalset ja patoloogilist anatoomiat. Lülisamba magnetuuringud sobivad prototüübi jaoks, sest see on magnetuuringutega kõikehõlmavalt kirjeldatav kitsas valdkond. Radioloog valib sobivad pildid ja märgib ära struktuurid, mis vajavad tekstivastet. Vaste valikul lähtutakse kasutussagedusest korpuses, käibivast meditsiinitavast ja õigekeelsusest. Prototüübi alusel koostatakse radioloogilise anatoomia ja patoloogia ontoloogiline andmebaas.