Loading...
 
[Show/Hide Left Column]

Sujets Help

View Item

Domain Natural Language Speech and Audio Processing
Domain - extra Natural Language Processing
Year 2014
Starting 01/10/2014
Status Closed
Subject Recherche d'information précise par processus hybrides
Thesis advisor GRAU Brigitte
Co-advisors Anne-Laure Ligozat
Laboratory LIMSI ILES
Collaborations
Abstract Développer des méthodes de recherche d'information précise génériques exploitant des ressources structurées ou textuelles. Il s'agira d'étudier comment intégrer les approches existantes dans un cadre unifié dans le but de développer des techniques novatrices de représentation/compréhension du texte. L'objectif est d'élaborer une représentation sémantique des questions de suffisamment haut niveau pour pouvoir ensuite être adaptée aux différents contextes de recherche de l'information, que ce soit en domaine ouvert ou dans un domaine de spécialité.
Context Le contexte de cette thèse est la recherche d'informations précises en langage naturel dans des textes et dans des bases de connaissances. Désormais de nombreuses bases de connaissances sont disponibles à travers les open linked data (Freebase, DBPedia...). Les interfaces en langage naturel pour ces bases de connaissance permettent d'exploiter l'expressivité des modèles de données sémantiques, tout en masquant leur complexité pour les utilisateurs. Par ailleurs, se sont développés depuis de nombreuses années des systèmes de réponse à des questions permettant de rechercher le même type d'information dans des textes.
Les données structurés offrent l'avantage d'être non ambiguës, mais d'une couverture restreinte, et nécessitent de traduire une question en langue vers un langage de requête. Les textes en revanche offrent une plus grande couverture des informations, mais ces informations sont non structurées, ambiguës, et de formulation variable.

La recherche d'information précise dans
Objectives Développer des méthodes de recherche d'information précise génériques exploitant des ressources structurées ou textuelles. Il s'agira d'étudier comment intégrer les approches existantes dans un cadre unifié dans le but de développer des techniques novatrices de représentation/compréhension du texte. L'objectif est d'élaborer une représentation sémantique des questions de suffisamment haut niveau pour pouvoir ensuite être adaptée aux différents contextes de recherche de l'information, que ce soit en domaine ouvert ou dans un domaine de spécialité.
Work program Cette thèse abordera les points suivants :
étudier les invariants sur les informations données dans les questions utiles pour les deux types de ressources : type de réponse attendu, focus, catégorie de la question...
produire une représentation sémantique des questions en se fondant sur des techniques d'apprentissage pour passer d'une représentation textuelle à une représentation sémantique.
Il s'agira d'explorer une annotation sémantique en utilisant des méthodes de reconnaissance d'entités et de relations de l'état de l'art, qui pourra constituer un préalable ou être intégrée à l'analyse de la question.
L'évaluation des solutions proposées sera faite notamment par la participation à des campagnes d'évaluation existantes.
Extra information
Prerequisite
Details
Expected funding Institutional funding
Status of funding Confirmed
Candidates
user anne-laure.ligozat
Created Thursday 05 of June, 2014 13:00:46 CEST
LastModif Friday 18 of July, 2014 15:27:17 CEST


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info at lri.fr