Loading...
 
[Show/Hide Left Column]

Tracker Item History Help

Close
warningNot logging
Tracker changes are not being logged: Go to Action log admin to enable

Version Date User Field ID Field Old New
2 14:24 190 Year 2012 2014
1 14:24 178 Thesis advisor YVON François ALLAUZEN Alexandre
1 14:24 179 Subject Modélisation statistique de la langue dans un espace continu
Modèles neuronaux pour le traitement automatique des langues
1 14:24 180 Abstract Les modèles statistiques de la langue constituent une source de
connaissance indispensable à de nombreuses applications comme la
traduction automatique. Les modèles actuels sont discrets et montrent
des capacités d'apprentissage et de généralisation insuffisantes.

L'objectif de la thèse est de développer des nouveaux modèles dont le principe consiste à projeter les mots dans un espace de représentation continu afin d'y estimer les probabilités. L'hypothèse est que les mots similaires auront des projections voisines et donc des distributions proches. La projection et l'estimation se font conjointement à l'aide d'un réseau de neurones appris automatiquement. Cette approche a donné des résultats prometteurs dans un cadre monolingue, nous proposons de l'étendre à la traduction automatique selon trois axes: l'apprentissage de modèles capables de mieux prendre en compte la structure syntaxique, l'amélioration des algorithmes d'estimation, et l'adaptation des modèles.
Les réseaux de neurones artificiels occupent une place de plus en grande dans le paysage de l'apprentissage automatique en général et en particulier pour le traitement automatique des langues.
L'objectif de la thèse est de développer des nouveaux modèles dont le principe consiste à projeter les mots dans un espace de représentation continu afin d'y estimer les probabilités. L'hypothèse est que les mots similaires auront des projections voisines et donc des distributions proches. La projection et l'estimation se font conjointement à l'aide d'un réseau de neurones appris automatiquement. Cette approche a donné des résultats prometteurs dans un cadre monolingue, nous proposons de l'étendre à la traduction automatique selon trois axes: l'apprentissage de modèles capables de mieux prendre en compte la structure syntaxique, l'amélioration des algorithmes d'estimation, et l'adaptation des modèles.
1 14:24 181 Context Les modèles statistiques de la langue constituent une source de
connaissance indispensable à de nombreuses applications comme la
reconnaissance automatique de la parole, et la traduction automatique.
Ces modèles visent à capturer les principales régularités statistiques
des occurrences de mots dans les textes, de façon à refléter, via des
distributions de probabilité, diverses contraintes linguistiques.

L'approche standard consiste à modéliser une phrase comme une source
Markovienne (le modèle n-gramme) qui prédit chaque mot en fonction des (n-1) prédécesseurs. Les mots sont alors représentés par un indice dans un espace discret correspondant au vocabulaire. Cette représentation est dénuée de structure et ne permet pas de généralisation: par exemple il s'avère extrêmement difficile de prédire la probabilité de séquences non observées, puisqu'il n'existe aucune notion de proximité dans cet espace discret.

Historiquement, les modèles n-grammes de langue neuronaux furent une des premières applications marquantes en reconnaissance automatique de la parole. Ces modèles ont été également appliqués à d'autres tâches complexes de modélisation comme par exemple l'analyse syntaxique, l'estimation de similarité sémantique, les modèles d'alignement bilingue de mots ou encore en traduction automatique statistique. Par opposition aux modèles discrets qui dominent encore, les modèles de langue neuronaux se caractérisent par la représentation des mots dans un espace continu, où chaque mot du vocabulaire est représenté comme un point dans un espace métrique. Ces représentations sont apprises par un réseau de neurones multi-couche conjointement avec les paramètres liés à la tâche de prédiction considérée. Ce type de modèle introduit la notion de similarité entre mots, via les représentations continues, permettant ainsi une meilleure exploitation des données textuelles.
1 14:24 182 Work program Trois axes sont envisagés. Le premier axe concerne l'introduction
explicite de la syntaxe dans les modèles de langues neuronaux. Des
travaux récents ont envisagé l'analyse syntaxique par le biais de
réseaux de neurones récurrents. L'objectif de cet axe est donc
d'étudier cette approche et de l'étendre au cadre multilingue. Le
second axe s'intéresse aux stratégies d'apprentissage novatrices et
appropriées à ce type de modèle contenant un grand nombre de
paramètres: l'apprentissage Bayésien propose un cadre théorique où la
structure même des modèles fait partie des connaissances à inférer;
une autre manière d'appréhender ce problème est de s'intéresser à la
fonction optimisée lors de l'apprentissage des paramètres. Enfin, le
troisième axe est celui de l'adaptation, dans lequel on souhaite
spécialiser un modèle général pour le rendre plus à même de
représenter les distributions de mots dans un domaine de spécialité.
Trois axes sont envisagés. Le premier axe concerne l'introduction
explicite d'information syntaxique dans les modèles de langues neuronaux. Des
travaux récents ont envisagé l'analyse syntaxique par le biais de
réseaux de neurones récurrents. L'objectif de cet axe est donc
d'étudier cette approche et de l'étendre au cadre multilingue. Le
second axe s'intéresse aux stratégies d'apprentissage novatrices et
appropriées à ce type de modèle contenant un grand nombre de
paramètres: une nouvelle méthode émerge dans ce domaine (Noise Contrastive Estimation), une piste serait d'explorer l'application de cette méthode aux modèles de traduction;
une autre manière d'appréhender ce problème est de s'intéresser à la
fonction optimisée lors de l'apprentissage des paramètres. Enfin, le
troisième axe est celui de l'adaptation, dans lequel on souhaite
spécialiser un modèle général pour le rendre plus à même de
représenter les distributions de mots dans un domaine de spécialité.
1 14:24 188 Co-advisors Alexandre Allauzen, LIMSI-CNRS, 50%

Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info at lri.fr