Heiki-Jaan Kaalep

19.05.1962
737 5942
heiki-jaan.kaalep@ut.ee

Teenistuskäik

Töökohad ja ametid
1993–...    Filosoft OÜ, juhatuse esimees (1,00)
01.01.1993–...    Filosoft OÜ, juhatuse esimees
1985-1991 TRÜ tehisintellekti labori teadur
1991-1992 TÜ tehisintellekti labori juhataja
sept. 1993 - märts 1994 0,5 lektor TÜ majandusteaduskonna majandusinformaatika ja modelleerimise instituudis
1992 - 1998 TÜ eesti filoloogia osakonna üldkeeleteaduse õppetooli teadur
1999 - TÜ eesti ja soome-ugri keeleteaduse osakonna vanemteadur
01.09.2009–31.08.2014    Tartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, keeletehnoloogia vanemteadur (1,00)
01.10.2004–31.08.2009    Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut, arvutilingvistika vanemteadur (1,00)
 
 
Haridustee
1980 Tallinna 44. Keskkool
1985 Majandusküberneetika eriala TRÜ-s
1992 TÜ informaatikamagister
1999 TÜ Ph.D. üldkeeleteaduse alal
 
 
Teadusorganisatsiooniline ja -administratiivne tegevus
2012−...    Ajakirja NEJLT abitoimetaja
2012−...    Journal of Language Modelling toimetuskolleegiumi liige
2006−...    European Science Foundation-i ekspert
Memura workshopi (seotud konverentsiga LREC, Lissabon 2004) programmikomitee liige.
TEMA 2005 - Workshop on Text Mining and Applications programmikomitee liige.
Haridus- ja Teadusministeeriumi juures keeletehnoloogia riiklikku programmi ettevalmistava töörühma liige (2005)
2012−2013    Konverentsi NODALIDA 2013 prgrammikomitee liige
2012−2012    Konverentsi HLT - the Baltic Perspective programmikomitee liige
2006−2010    Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" juhtkomitee liige

Kvalifikatsioon

 
 
Teaduspreemiad ja tunnustused
2003, Heiki-Jaan Kaalep, Eesti Vabariigi teaduspreemia tehnikateaduste alal töö „Eesti keele tekst-kõne süntees“ eest (kaasautorid Meelis Mihkla, Arvo Eek, Einar Meister) 2003
 
 
Teadustöö põhisuunad
VALDKOND: 2. Ühiskonnateadused ja kultuur; 2.6. Filoloogia ja lingvistika
VALDKOND: 2. Ühiskonnateadused ja kultuur; 2.6. Filoloogia ja lingvistika; CERCS ERIALA: H350 Keeleteadus
VALDKOND: 4. Loodusteadused ja tehnika; 4.7. Info- ja kommunikatsioonitehnoloogia
 
 
Lisainfo
Ph.D. üldkeeleteaduse alal
TÜ 1999

Publikatsioonid

Klass
Aasta
Publikatsioon
 
1.1.
2016
3.1.
2016
1.2.
2015
1.3.
2014
1.2.
2013
1.1.
2012
1.2.
2012
1.2.
2012
3.2.
2012
3.4.
2012
1.1.
2011
3.4.
2011
1.1.
2010
1.2.
2010
1.2.
2010
1.2.
2010
3.1.
2010
1.1.
2009
1.2.
2009
1.1.
2008
1.2.
2008
3.4.
2008
3.4.
2008
3.4.
2007
3.4.
2007
4.2.
2007
3.4.
2006
3.4.
2005
3.4.
2004
6.2.
2004
3.2.
2003
3.2.
2003
3.2.
2003
3.4.
2003
3.4.
2003
6.3.
2003
3.2.
2002
3.3.
2002
3.4.
2002
3.4.
2001
3.4.
2001
3.4.
2001
3.4.
2001
1.2.
2000
1.3.
2000
3.4.
1999
1.2.
1998
1.2.
1998
3.4.
1998
3.4.
1998
1.1.
1997

Heiki-Jaan Kaalep

19.05.1962
737 5942
heiki-jaan.kaalep@ut.ee

Career

Institution and occupation
01.01.2016–31.08.2019    University of Tartu, Faculty of Science and Technology, Institute of Computer Science, Senior Research Fellow in Language Technology (1,00)
1993–...    Filosoft Ltd., Other staff (1,00)
1985-1999 research fellow in laboratory of artificial intelligence, UT
1991-1992 chair of the laboratory of artificial intelligence, UT
sept 1993 - march 1994 0.5 lector in the institute of economical informatics and modelling, UT
1992 - 1998 research fellow in the department of general linguistics, UT
1999 - senior research fellow in the department of general linguistics, UT
01.09.2014–31.12.2015    University of Tartu, Faculty of Mathematics and Computer Science, Institute of Computer Science, Senior Research Fellow in Language Technology (1,00)
01.09.2009–31.08.2014    University of Tartu, Faculty of Mathematics and Computer Science, Institute of Computer Science, Senior Research Fellow in Language Technology (1,00)
01.10.2004–31.08.2009    University of Tartu, Faculty of Philosophy, Institute of Estonian and General Linguistics, Senior Research Fellow (1,00)
 
 
Education
1980 Secondary School No 44, Tallinn
1985 Economical cybernetics, UT
1992 Master of Informatics, UT
1999 PhD in general linguistics, UT
 
 
R&D related managerial and administrative work
2012−...    Associate editor of NEJLT
2012−...    Member of the editorial board of Journal of Language Modelling
Member of the Memura workshop (in connection with LREC, Lisbon 2004) program committee.
Member of the TEMA 2005 - Workshop on Text Mining and Applications program committee.
Member of a preparatory workgroup for National programme for language technology at the Ministry of Education and Science
2012−2013    Member of the programme commitee of NODALIDA 2013
2012−2012    Member of the programme commitee of HLT - the Baltic Perspective
2006−2010    Member of the steering commitee of the programme "Language technology for Estonian (2006-2010)"

Qualifications

 
 
Honours & awards
2003, Heiki-Jaan Kaalep, Scientific prize of Estonia in technical sciences for "Estonian text-to-speech synthesis" (co-authors Meelis Mihkla, Arvo Eek, Einar Meister) 2003
 
 
Field of research
FIELD OF RESEARCH: 2. Culture and Society; 2.6. Philology and Linguistics
FIELD OF RESEARCH: 2. Culture and Society; 2.6. Philology and Linguistics; CERCS SPECIALTY: H350 Linguistics
FIELD OF RESEARCH: 4. Natural Sciences and Engineering; 4.7. Telecommunications
 
 
Additional information
PhD in general linguistics
UT 1999

Completed projects

Publications

Category
Year
Publication
 
1.1.
2016
3.1.
2016
1.2.
2015
1.3.
2014
1.2.
2013
1.1.
2012
1.2.
2012
1.2.
2012
3.2.
2012
3.4.
2012
1.1.
2011
3.4.
2011
1.1.
2010
1.2.
2010
1.2.
2010
1.2.
2010
3.1.
2010
1.1.
2009
1.2.
2009
1.1.
2008
1.2.
2008
3.4.
2008
3.4.
2008
3.4.
2007
3.4.
2007
4.2.
2007
3.4.
2006
3.4.
2005
3.4.
2004
6.2.
2004
3.2.
2003
3.2.
2003
3.2.
2003
3.4.
2003
3.4.
2003
6.3.
2003
3.2.
2002
3.3.
2002
3.4.
2002
3.4.
2001
3.4.
2001
3.4.
2001
3.4.
2001
1.2.
2000
1.3.
2000
3.4.
1999
1.2.
1998
1.2.
1998
3.4.
1998
3.4.
1998
1.1.
1997
  • Leitud 25 kirjet
ProgrammNumberNimiProjekti algusProjekti lõppVastutav täitjaAsutusRahastamine kokku
EKTEKT6Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine01.01.201131.12.2014Eola ValdreTartu Ülikool, Filosoofiateaduskond85 640,00 EUR
MUUSMTAT13048 (13030108)Doktorant Indrek Jentsoni osalemine konverentsil NoDaLiDa 2013 Oslos21.05.201326.05.2013Heiki-Jaan KaalepTartu Ülikool; Tartu Ülikool, Matemaatika-informaatikateaduskond674,10 EUR
IUTIUT20-56Eesti keele arvutimudelid01.01.201431.12.2019Heiki-Jaan KaalepTartu Ülikool, Loodus- ja täppisteaduste valdkond, Arvutiteaduse instituut513 600,00 EUR
SFSF0182541s03Eesti keele arvutimudelid ja keeleressursid: teoreetilised ja rakenduslikud aspektid.01.01.200331.12.2007Haldur ÕimTartu Ülikool, Filosoofiateaduskond335 996,32 EUR
EKKTTEKKTT06-14Eesti keele koondkorpus01.01.200631.12.2009Kadri MuischnekTartu Ülikool, Filosoofiateaduskond122 281,72 EUR
EKTEKT63Eesti masintõlke kvaliteedi parendamine keeleteadmiste abil (Linguistic Knowledge in Estonian Machine Translation)01.01.201431.12.2017Margit KurmTilde Eesti OÜ126 000,00 EUR
TKTK145Eesti-uuringute tippkeskus01.01.201601.03.2023Liina LukasTartu Ülikool, humanitaarteaduste ja kunstide valdkond, Kultuuriteaduste ja kunstide instituut1 581 787,32 EUR
EKTEKT110EstNLTK teegi täiendamine ja selle rakendamine praktikas01.01.201731.12.2017Sven LaurTartu Ülikool, Loodus- ja täppisteaduste valdkond, Arvutiteaduse instituut68 000,00 EUR
EKTEKT57EstNLTK: Pythoni teegid eestikeelsete vabatekstide lihtsamaks töötlemiseks01.01.201431.12.2016Sven LaurTartu Ülikool, Matemaatika-informaatikateaduskond153 800,00 EUR
MUUMFLEE05027European digital content for the global networks. Collection of Pan-European Terminology Resources through Cooperation of Terminology Institutions01.01.200531.12.2006Heiki-Jaan KaalepTartu Ülikool245 267,34 EUR
EKTEKT88KaMa: Kasutatav Eesti Masintõlge01.01.201531.12.2017Mark FišelTartu Ülikool, Loodus- ja täppisteaduste valdkond, Arvutiteaduse instituut72 000,00 EUR
EKKTTEKKTT06-4Korpusepäring keeleveebis01.01.200631.12.2010Heiki-Jaan KaalepFilosoft OÜ79 717,00 EUR
EKRMEKRM05-58Korpusepäring keeleveebis01.01.200531.12.2005Heiki-Jaan KaalepFilosoft OÜ4 793,37 EUR
SFSF0180078s08Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine01.01.200831.12.2013Mare KoitTartu Ülikool, Matemaatika-informaatikateaduskond625 121,65 EUR
EKKTTEKKTT09-64Masintõlge 201.01.200931.12.2010Heiki-Jaan KaalepTartu Ülikool, Filosoofiateaduskond95 933,30 EUR
EKKTTEKKTT06-9Masintõlge I01.01.200631.12.2008Heiki-Jaan KaalepTartu Ülikool, Filosoofiateaduskond81 806,91 EUR
EKRMEKRM04-7Masintõlge I01.01.200431.12.2005Heiki-Jaan KaalepTartu Ülikool18 214,82 EUR
EKKTTEKKTT06-10Mitmesõnaliste verbide ja nende kokku-lahku kirjutamise vigade äratundmine eestikeelsetes tekstides01.01.200631.12.2008Heiki-Jaan KaalepTartu Ülikool, Filosoofiateaduskond71 581,04 EUR
EKRMEKRM04-6Mitmesõnaliste verbide ja nende kokku-lahku kirjutamise vigade äratundmine eestikeelsetes tekstides01.01.200431.12.2005Heiki-Jaan KaalepTartu Ülikool22 369,08 EUR
ETFETF5787Mitmesõnaliste verbide struktuur eestikeelsetes tekstides01.01.200431.12.2007Heiki-Jaan KaalepTartu Ülikool, Filosoofiateaduskond10 858,06 EUR
EMPEMP160Saami-Eesti keeletehnoloogia-alane koostöö: sarnased keeled, ühesugune tehnoloogia03.09.201330.04.2017Heiki-Jaan KaalepTartu Ülikool, Matemaatika-informaatikateaduskond196 137,00 EUR
EKTEKT11Uued ressursid masintõlkes 01.01.201131.12.2013Heiki-Jaan KaalepTartu Ülikool, Matemaatika-informaatikateaduskond127 000,00 EUR
EKKTTEKKTT06-8Veebipõhine interaktiivne keeleõpe ja selleks vajalikud ressursid01.01.200631.12.2010Kristiina PraakliTartu Ülikool, Filosoofiateaduskond59 828,98 EUR
EKRMEKRM04-1Veebipõhine interaktiivne keeleõpe ja selleks vajalikud ressursid01.01.200431.12.2005Birute Klaas-LangTartu Ülikool, Filosoofiateaduskond32 594,94 EUR
APIUT20-56AP14Väikesemahulise teaduse infrastruktuuri kaasajastamine teadusteema IUT20-56 raames01.01.201431.10.2015Heiki-Jaan KaalepTartu Ülikool, Matemaatika-informaatikateaduskond, Arvutiteaduse instituut, Keeletehnoloogia õppetool56 810,00 EUR
  • Leitud 52 kirjet
PublikatsioonKlassifikaatorFail
Orasmaa, Siim; Kaalep, Heiki-Jaan; (2017). Can We Create a Tool for General Domain Event Analysis? Proceedings of the 21st Nordic Conference on Computational Linguistics, 29: NoDaLiDa 21, Göteborg, Rootsi, 22.-24. mail 2017. Ed. Jörg Tiedemann. Linköping, Rootsi: Linköping University Electronic Press, 192−201. (NEALT Proceedings Series).3.4.
Kaalep, Heiki-Jaan (2016). Kas Google on ühe-või kahesilbiline sõna? Keel ja Kirjandus, 1, 28−40.1.1.
Orasmaa, Siim; Petmanson, Timo; Tkatšenko, Aleksandr; Laur, Sven; Kaalep, Heiki-Jaan; (2016). EstNLTK – NLP Toolkit for Estonian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016): The International Conference on Language Resources and Evaluation; Portorož, Slovenia; 2016. Ed. Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Marko Grobelnik and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis. Portorož, Slovenia: ELRA, 2460−2466.3.1.
Kaalep, Heiki-Jaan (2015). Eesti verbi vormistik. Keel ja Kirjandus, 1, 1−15.1.2.
Valdre, E.; Ross, P.; Tsepelina, K.; Veskis, K.; Vaino, T.; Kaalep, H.-J. (2014). Radioloogiauuringute vastuste lühendite ja lühendamise korpuslingvistiline analüüs. Eesti Arst, 93 (9), 502−512.1.3.
Kaalep, Heiki-Jaan (2013). Keelelise küsitluse tõlgendamise ohud. Keel ja Kirjandus, 6, 440−446.1.2.
Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Osalausete tuvastamine eestikeelses tekstis kui iseseisev ülesanne. Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (55−68).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa8.04.1.1.
Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep, Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur (2012). Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. Erelt, Mati; Mäearu, Sirje (Toim.). Emakeele Seltsi Aastaraamat (66−102).. Tallinn: TA Kirjastus.1.2.
Kaalep, Heiki-Jaan (2012). Käänamissüsteemi seaduspärasused. Keel ja Kirjandus, 6, 418−449.1.2.
Kaalep, Heiki-Jaan; Kirt, Riin; Muischnek, Kadri (2012). A trivial method for choosing the right lemma. In: Tavast, Arvi; Muischnek, Kadri; Koit, Mare (Ed.). Human Language Technologies – The Baltic Perspective (82−89). IOS Press.10.3233/978-1-61499-133-5-82.3.2.
Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Robust clause boundary identification for corpus annotation. In: Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mar (Ed.). Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) (1632−1636).. Istanbul, Türgi: ELRA.3.4.
Muischnek, K.; Kaalep, H.-J.; Sirel, R. (2011). Korpuslingvistiline lähenemine eesti internetikeele automaatsele morfoloogilisele analüüsile. Metslang, H.; Langemets, M.; Sepper, M.-M. (Toim.). Eesti Rakenduslingvistika Ühingu aastaraamat (111−127).. Tallinn: Eesti Rakenduslingvistika Ühing.10.5128/ERYa7.07.1.1.
Kaalep, H.-J.; Muischnek, K. (2011). Morphological analysis of a non-standard language variety. Proceedings of the 18th Nordic Conference of Computational Linguistics: NODALIDA 18, Riia, Läti, 11-13. mai 2011. Ed. Bolette Sandford Pedersen, Gunta Nešpore, Inguna Skadina. Riia, Läti, 130−137. (NEALT Proceedings Series; 11).3.4.
Kaalep, H.-J.; Muischnek, K. (2010). The variability of multi-word verbal expressions in Estonian. Language Resources and Evaluation, 44, 115−135.1.1.
Fishel, Mark; Kaalep, Heiki-Jaan (2010). CorporAl: a Method and Tool for Handling Overlapping Parallel Corpora. The Prague Bulletin of Mathematical Linguistics, 94, 67−76.1.2.
Kaalep, Heiki-Jaan; Koit, Mare (2010). Kuidas masin tõlgib. Keel ja Kirjandus, 10, 726−738.1.2.
Kaalep, Heiki-Jaan (2010). Mitmuse osastav eesti keele käändesüsteemis. Keel ja Kirjandus, 2, 94−111.1.2.
Kaalep, Heiki-Jaan; Muischnek, Kadri; Uiboaed, Kristel; Veskis, Kaarel (2010). The Estonian Reference Corpus: its composition and morphology-aware user interface. Frontiers in Artificial Intelligence and Applications, 219: The Fourth International Conference HUMAN LANGUAGE TECHNOLOGIES : THE BALTIC PERSPECTIVE, Riga, Latvia, October 7-8, 2010. Ed. Skadiņa, Inguna; Vasiļjevs, Andrejs. IOS Press, 143−146. (Human Language Technologies – The Baltic Perspective - Proceedings of the Fourth International Conference Baltic HLT 2010).10.3233/978-1-60750-641-6-143.3.1.
Kaalep, H.-J.; Muischnek, K. (2009). Eesti keele püsiühendid arvutilingvistikas: miks ja kuidas. Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 157−172.1.1.
Kaalep, H.-J. (2009). Kuidas kirjeldada lühikest sisseütlevat kasutusandmetega kooskõlas? Keel ja Kirjandus, 6, 411−425.1.2.
Kaalep, H.; Mikk, J. (2008). Creating specialised dictionaries for foreign language learners: a case study. International Journal of Lexicography, 21 (4), 369−394.10.1093/ijl/ecn017.1.1.
Kaalep, H.-J.; Mikk, J. (2008). Põhikooli ainesõnastikud. Keel ja Kirjandus, 10, 790−802.1.2.
Fishel, M.; Kaalep, H.-J. (2008). Experiments on Processing Overlapping Parallel Corpora. Proceedings of the International Conference on Language Resources and Evaluation: Marrakech, Morocco; 28.-30.05.2008. Marrakech, Morocco, 3057−3061.3.4.
Kaalep, H.-J.; Muischnek, K. (2008). Multi-Word Verbs of Estonian: a Database and a Corpus. Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions: Marrakech; Morocco; 1. juuni 2008. 23−26.3.4.
Kaalep, H.-J.; Veskis, K. (2007). Comparing Parallel Corpora and Evaluating their Quality. MT Summit XI Proceedings: Machine Translation Summit XI. Copenhagen, Denmark, 10-14 september 2007. Ed. Bente Maegaard. Kopenhaagen, 275−280.3.4.
  • Leitud 7 kirjet
PealkiriJuhendatavKraadJuhendajaKaitsmise staatusKaitsmise aastaAsutus
Algupärane ja tõlkeline eesti keelMarju TaukardoktorikraadArvi Tavast; Heiki-Jaan KaalepJuhendamiselTallinna Ülikool, Eesti Keele ja Kultuuri Instituut
Doktoritöö: Explorations of the Problem of Broad-coverage and General Domain Event Analysis: The Estonian ExperienceOrasmaa, SiimdoktorikraadHeiki-Jaan KaalepKaitstud2017Tartu Ülikool, Matemaatika-informaatikateaduskond
Eesti lapsekeele korpuse morfoloogilisest märgendamisestVaik, KristiinamagistrikraadVirve-Anneli Vihman; Heiki-Jaan KaalepKaitstud2016Tartu Ülikool, Filosoofiateaduskond, Eesti ja üldkeeleteaduse instituut
Eestikeelsete autentsete meditsiinitekstide kui meditsiini allkeele uurimine: mitmetähenduslikkuse allikad ning sünonüümia ja tähenduse vahekordValdre, EoladoktorikraadHeiki-Jaan Kaalep; Peeter RossJuhendamiselTartu Ülikool
Inglise-eesti paralleelkorpuse rakendusedVeskis, KaareldoktorikraadHeiki-Jaan KaalepJuhendamiselTartu Ülikool
Methods for representing meaning in text analysisJentson, IndrekdoktorikraadHeiki-Jaan KaalepJuhendamiselTartu Ülikool, Matemaatika-informaatikateaduskond
Paralleelkorpused arvutilingvistikas: leksikonide genereerimine ja korpuste võrdlemineVeskis, Kaarelmagistrikraad (teaduskraad)Heiki-Jaan KaalepKaitstud2007Tartu Ülikool, Filosoofiateaduskond, Eesti ja soome-ugri keeleteaduse osakond