Abstract
|
Le développement de systèmes de traduction repose sur des mesures d'évaluation
automatiques de la qualité d'une traduction, telles que BLEU 1 et HTER 2. Celles-ci permettent de comparer différents systèmes de traduction et de guider le développement de systèmes en quantifiant l'impact des modifications. La définition d'une telle métrique soulève de nombreux problèmes, tant la qualité d'une traduction repose sur de nombreux critères (conservation du sens, fluidité de la traduction, ...) subjectifs et difficiles à formaliser.
Plusieurs travaux récents proposent d'appliquer des méthodes d'apprentissage statistique au problème de l'évaluation en traduction automatique, en s'appuyant sur des corpus annotés par des évaluations humaines. Grâce à ces méthodes, il est possible de construire une mesure uniquement en fournissant des exemples de bonnes et de mauvaises traductions sans avoir à expliciter la définition d'une bonne traduction.
|
Context
|
Récemment, plusieurs travaux (3, 4, ...) ont montré qu'il était possible d'apprendre une mesure d'évaluation automatique permettant de mesurer quantitativement la qualité d'une traduction. Toutefois ces travaux laissent de nombreuses questions ouvertes notamment sur la manière de formaliser ce problème d'apprentissage et sur la généralité de la mesure apprise (mesure limité à un système de traduction ou à un corpus particulier). Cette thèse s'appuie sur les méthodes introduites par ces travaux et propose d'étudier, de manière plus systématique, la validité et les performances de ces approches.
La thèse aborde également les problématiques des mesures de confiance (auto-évaluation de la qualité d'une traduction par le système qui l'a produite) et de l'analyse d'erreur (identification des difficultés rencontrées lors de la traduction). Malgré leur intérêt, très peu de travaux ont abordé ces deux problématiques (5) et il n'existe pas, à l'heure actuelle, d'approche convaincante.
|
Extra information
|
1 K Papineni, S Roukos, T Ward, Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation, Proc ACL 2002.
2 M. Snover, B. Dorr, R. Schwartz, L. Micciulla, J. Makhoul, A Study of Translation Edit Rate with Targeted Human Annotation, Proc AMTA 2006.
3 Mohit, B. et Hwa, R. Localization of Difficult-to-Translate Phrases. Proc SMT 2007.
4 Albrecht, J. and Hwa, R. The Role of Pseudo References in MT Evaluation. Proc SMT 2008.
5 Blatz et al. Confidence estimation fo
|