Natural Language Speech and Audio Processing

Éléments

Domain - extra

Machine translation

Année

2011

Starting

october

État

Open

Sujet

Réordonnancements discriminants en traduction automatique statistique

Thesis advisor

YVON François

Co-advisors

Alexandre ALLAUZEN, LIMSI-CNRS, 50%.

Laboratory

LIMSI TLP

Collaborations

LIMSI-CNRS

Abstract

Cette thèse s'attaque au problème de la modélisation probabilistes des divergences, principalement d'ordre syntaxique, entre les arrangements de syntagmes dans une langue source et une langue cible. Ces modèles jouent un rôle crucial dans le contexte de la traduction automatique par des méthodes statistiques.

Context

Les systèmes les plus performants en traduction automatique reposent sur des modèles probabilisés du processus de traduction, modèles qui sont entrainés sur des très gros corpus de données parallèles (c-à-d contenant des paires de phrases en relation de traduction mutuelle) 1. Ces modèles probabilistes
impliquent la constitution de répertoires bilingues de segments de longueur variable, qui sont comme des entrées de dictionnaires bilingues mettant en relation des groupes de mots de longueur arbitraires, dans lesquels les associations entre un groupe et sa traduction sont probabilisées.

L'apprentissage de ces modèles repose sur une succession d'heuristiques qui visent à étendre au niveau des groupes des alignements initialement au niveau des mots. Ces alignements de mots sont inférés par un empilement de modèles génératifs de complexité croissante qui donnent lieu à des algorithmes relativement efficaces modèles collectivement connus sous le nom de ``modèles
IBM''.

Objectives

La donnée des alignements de mots permet également de modéliser les
phénomènes de réordonnancement, c.-à-d. les changements d'ordre relatifs des mots entre la langue source et la langue cible. S'il est bien connu que les déplacements observés dans le processus de traduction mettent en jeu des unités syntaxiquement cohérentes (voir par exemple 2), les modèles les plus utilisés se limitent à modéliser l'écart des positions relatives d'un mot ou groupe source
et de sa traduction 3 (la distortion); ou, dans leur évolution plus récente 4, à utiliser les liens d'alignements pour estimer la propension de chaque unité à occuper une position relative différente en source et en cible.

D'un point de vu plus formel, modéliser les réordonnancements implique de résoudre deux problèmes difficiles: (i) probabiliser les permutations d'une phrase source; (ii) extraire les permutations les plus probables et les représenter dans une structure compacte pouvant être explorée efficacement.

Work program

L'objectif de cette thèse est multiple. Il s'agira, dans un premier temps, d'étudier diverses manières de contraindre l'ensemble des permutations d'une phrase source et d'évaluer la pertinence de ces contraintes d'un point de vue computationnel et d'un point de vue linguistique. On pourra notamment s'inspirer du formalisme des grammaires d'inversion introduites par D. Wu 5. Il s'agira ensuite de proposer des manières de probabiliser ces ensembles de permutations et d'effectuer l'estimation des modèles ainsi définis: la difficulté porte ici sur l'existence de données d'apprentissage, car les déplacements
ne sont pas observés, mais déduits d' alignements par nature imparfaits. La troisième partie de l'étude portera sur la définition de caractéristiques syntaxiquement informées permettant d'apprendre les permutations les plus probables dans un cadre discriminant. L'ensemble des propositions fera l'objet d'implémentations en vraie grandeur dans les systèmes de traductions du LIMSI.

Extra information

References:

1 P. Koehn (2010). Statistical Machine Translation (SMT). Cambridge University Press.
2 M. Collins, P. Koehn, and I. Kucerova (2005). Clause Restructuring for SMT. Proc. ACL.
3 Y. Al-Onaizan and K. Papineni (2006) Distortion models for SMT, Proc. ACL.
4 C. Tillman (2004). A block orientation model for SMT. Proc. HLT-NAACL.
5 Dekai Wu (1997). Stochastic inversion transduction grammars and bilingual parsing of parallel corpora. Comput. Ling.23(3):377-404.

Prerequisite

Master d'informatique, specialisation en traitement des langues et apprentissage automatique

Détails

Expected funding

Institutional funding

Status of funding

Expected

Candidates

Utilisateur

Créé

Lundi 06 juin 2011 11:56:26 CEST

dernière modif.

Lundi 06 juin 2011 11:57:12 CEST

Fichiers joints

	filename	créé	hits	filesize
Aucun fichier joint à cette fiche

Connexion

Ecole Doctorale Informatique Paris-Sud

Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr