See veebileht kasutab küpsiseid kasutaja sessiooni andmete hoidmiseks. Veebilehe kasutamisega nõustute ETISe kasutustingimustega. Loe rohkem
Olen nõus
"Riiklik programm: Eesti keeletehnoloogia" projekt EKT17
EKT17 (EKT17) "Audiovisuaalse kõnesünteesi prototüüp (1.01.2011−31.12.2014)", Einar Meister, Tallinna Tehnikaülikool, TTÜ Küberneetika Instituut.
EKT17
Audiovisuaalse kõnesünteesi prototüüp
1.01.2011
31.12.2014
Teadus- ja arendusprojekt
Riiklik programm: Eesti keeletehnoloogia
ETIS klassifikaatorAlamvaldkondCERCS klassifikaatorFrascati Manual’i klassifikaatorProtsent
2. Ühiskonnateadused ja kultuur2.6. Filoloogia ja lingvistikaH351 Foneetika, fonoloogia 6.2. Keeleteadus ja kirjandus30,0
4. Loodusteadused ja tehnika4.7. Info- ja kommunikatsioonitehnoloogiaT121 Signaalitöötlus 2.2. Elektroenergeetika, elektroonika (elektroenergeetika, elektroonika, sidetehnika, arvutitehnika ja teised seotud teadused)70,0
PerioodSumma
01.01.2011−31.12.201132 000,00 EUR
01.01.2012−31.12.201229 000,00 EUR
01.01.2013−31.12.201337 000,00 EUR
01.01.2014−31.12.201437 000,00 EUR
135 000,00 EUR

== Taust == Inimestevaheline suhtlus on oma olemuselt multimodaalne - lisaks kõnele edastame informatsiooni ka visuaalselt žestide, näoilme, kehakeele, jm kaudu. Kommunikatsioonitehnoloogia üheks arengusuunaks on inimene-masin liideste arendus, milles rakendatakse kõiki inimesele omaseid suhtlusviise, audiovisuaalne kõnesüntees on üks multimodaalse suhtluse rakendusi. Audiovisuaalse kõnesünteesi puhul lisatakse heliväljundile ka animeeritud inimnäo või pea kujutis. Näo liigutused (näiteks naeratamine, kulmu kortsutamine, silma pilgutamine, noogutamine ja kulmude kergitamine) annavad edasi olulist informatsiooni kõneleja emotsionaalse seisundi kohta ja visuaalne esitus aitab kaasa ka kõnest aru saamisele, eriti kui seda segavad müra või kuulmispuue. Kõne audiovisuaalne süntees eeldab eraldi moodustatud akustilise ja visuaalse informatsiooni sünkroonset ning sidusat edastust, vastasel juhul võib kõnest arusaamine isegi halveneda. Näiteks on uuritud McGurk'i efekti, milles silbi /ba/ heli juurde on liidetud visuaalne /ga/, mille tulemusena tajutakse hoopiski silpi /da/. Kõneleval peal on mitmeid rakendusi, näiteks: - abivahend kuulmishäiretega inimeste jaoks inimkõne mõistmisel ja huultelt lugema õppimisel, - virtuaalne juhendaja sünnipärase kuulmispuudega inimestele, kes saavad animatsiooni abil õppida häälikute õiget moodustamist, jälgides huulte ning kõnetrakti elundite liikumist kõnelemisel, - interaktiivne abivahend võõrkeele õppimisel, eriti kui kuvatakse ka kõnetrakti kuju ja keele asendit ning liikumist erinevate häälikute moodustamisel, - videokonverentsidel info edastajana või erinevates keskkondades uudistelugejana. Audiovisuaalse kõnesünteesi puhul tuntakse valdavalt kaht lähenemist: - mudelipõhine ehk parameetriline – animatsioon genereeritakse etteantud mudeli põhjal parameetrite muutmise teel. Üks olulisemaid mudeleid on 1982. aastal Parke'i poolt loodud parameetrilise näo mudel. Tegemist on kolmemõõtmelise pea kujutisega, mis koosneb umbes 800 hulktahukast ning mida saab juhtida 50 erineva parameetri abil. Selle mudel on olnud aluseks mitmete prototüüpide loomisel, näiteks Baldi (kohandatud mitmetele keeltele http://mambo.ucsc.edu/psl/international.html), Synface (http://www.speech.kth.se/multimodal/) jt. - korpuse-põhine lähenemine, mis baseerub videokorpusest sobivate üksuste valiku algoritmil ja fotorealistlike kujutiste järgnevustel. See tähendab juba valmisolevate kujutiste (näiteks fotode) esitamist üksteise järel, tekitades nii kõnelemise illusiooni (http://www.ikp.uni-bonn.de/forschung/phonetik/sprachsynthese/boss). Viimast meetodit saab edukalt kasutada siiski vaid piiratud rakenduste korral (etteantud sõnavaraga teated, hoiatused jne); see lahendus ei ole kuigi paindlik, kuna puudub võimalus kontrollida näo omadusi üksteisest sõltumatult. Eestikeelse audiovisuaalse kõnesünteesi alal on seni valminud kaks bakalaureusetööd, üks TÜs (E.Liba, Audiovisuaalne kõnesüntees eesti keeles, 2007), teine TTÜs (M.Rei, Eestikeelse audiovisuaalse kõnesünteesi pea mudeli loomine, 2008), mõlema juhendaja E.Meister. == Eesmärgid == Projekti eesmärgiks on eestikeelse audiovisuaalse kõnesünteesi prototüübi loomine. See koosneb kahest põhilisest komponendist: - visuaalset animatsiooni võimaldavast peamudelist, - tekst-kõnesüntesaatorist. Projekti raames tegeldakse eelkõige visuaalse mudeli loomisega ja see liidestatakse Eesti Keele Instituudis loodud/loodavate tekst-kõnesünteesi prototüüpidega. Olulisemad ülesanded: - multimodaalse andmestiku märgendamine, segmenteerimine ja analüüs, - eesti viseemide artikulatoorsete mustrite loomine, - viseemide koartikulatsiooni uurimine ja modelleerimine, - pea sõrestikmudeli ja selle juhtimiseks vajaliku liidese loomine, - pea mudeli treenimine 3D andmestiku baasil, - visuaalse animatsiooni ja kõnesünteesi sünkroniseerimine, - pea mudeli ja olemasolevate eestikeelsete kõnesüntesaatorite liidestamine, - audiovisuaalse kõne taju uurimine ja kvaliteedi testimine, - kõneleva pea prototüübi kohandamine erinevateks rakendusteks. Antud taotlus on otseselt seotud kahe projektitaotlusega: 1 „Kõne- ja multimodaalsed korpused” (KübI, E.Meister), mille raames kogutakse artikulatsiooni uurimiseks ja modelleerimiseks vajalikud multimodaalsed korpused; 2. „Kõnesünteesiliidesed” (EKI, M.Mihkla), mille raames loodud kõnesüntesaatoreid kasutatakse sünteeskõne tekitamiseks. Projektis kasutatakse rahvusvaheliselt tuntud uurimistulemusi ja vabavara (ANVIL http://www.anvil-software.de/ ja/või ELAN http://www.lat-mpi.eu/tools/elan/, mutimodaalse andmestiku märgendamisel kasutakse rahvusvaheliselt tunnustatud metoodikat, samuti tehakse koostööd mitmete tuntud uurijatega (vt rahvusvaheline koostöö). Projekti tulemusena loodava prototüübi tarkvara on vabavara, mis tehakse kättesaadavaks Eesti Keeleressursside Keskuse kaudu vastavalt keskuse litsentsitingimustele. Projekt vastab EKT 1. alaeesmärgi valdkonnale „Kõnesüntees: audiovisuaalse kõnesünteesi mudelid”.