Loading...
 
[Show/Hide Left Column]

Sujets Help

View Item

Domain Bioinformatics
Domain - extra
Year 2014
Starting 01/10/2014
Status Closed
Subject Interrogation, réutilisation et adaptation de workflows scientifiques pour l’annotation systémique de génomes bactériens
Thesis advisor COHEN-BOULAKIA Sarah
Co-advisors Jean-Francois Gibrat, DR INRA Jouy-en-Josas
Laboratory LRI Bioinfo
Collaborations
Abstract Les masses de données produites par les sciences du vivant ont augmenté de façon spectaculaire ces dernières années. La tâche fondamentale de la bioinformatique est d’extraire des connaissances de ces masses de données brutes. Cela est réalisé grâce à l’assemblage d'une multitude d’outils et d’algorithmes. Des efforts considérables ont été faits dans le développement de systèmes d’aide à la conception et la gestion de tels assemblages de programmes d'analyse, appelés systèmes de gestion de workflows scientifiques. L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows sont actuellement disponibles.
L'objectif est de fournir un cadre d’'interrogation pour réutiliser et adapter les workflows existants en considérant le problème de la citation des workflows réutilisés. L’approche sera évaluée sur un ensemble de workflows d'annotation systémique de bactéries.
Context La taille des jeux de données bioinformatiques a augmenté de façon spectaculaire ces dernières années. La tâche la plus importante effectuée sur ces de données est leur analyse réalisée par l'assemblage d'une multitude de scripts, d’outils et d’algorithmes. Des efforts considérables ont été fait dans le développement de systèmes pour soutenir la conception et la gestion de tels programmes complexes d'analyse, appelés systèmes de gestion workflows scientifiques (e.g., (Oinn et al., 2006) (Ludäscher et al., 2006)). L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows bioinformatiques sont actuellement disponibles mais l’accès à leur contenu (interrogation) demeure une tâche complexe.
Objectives L'objectif de cette thèse est de fournir aux scientifiques un cadre d’'interrogation pour réutiliser et adapter à leurs besoins les workflows existants tout en tenant compte du problème de la citation des workflows ainsi récupérés et réutilisés. Cette thèse se placera en partie dans le cadre du Lidex IMSV (Institut de Modélisation des Systèmes Vivants) dont l’un des objectifs est de constituer une base de workflows pour l'annotation systémique de génomes bactériens. Plus particulièrement, nous considèrerons trois tâches.
Work program (1) Conception d’un cadre de comparaison de workflows et d’un langage de requêtes pour l’interrogation d’entrepôts de workflows. Le cadre devra considérer et combiner différents critères de similarité de workflows basés sur leur spécification et leurs exécutions (provenance). Les critères peuvent être basés sur une description textuelle, sémantique, ou sur la structure (graphe) des workflows. Le défi à relever est double : calculer la similarité entre workflows de façon rapide et fiable tout en offrant un langage de requêtes expressif pour l’interrogation efficace des entrepôts de workflows.
(2) Conception d’algorithmes pour tracer la réutilisation de workflows : conception d’une structure concise de représentation des workflows capable de rendre compte des différences (structurelles) entre les workflows.
(3) Preuve de concept dans le contexte d'annotation systémique de génomes bactériens en collaboration avec des scientifiques de l'INRA.

Extra information
Prerequisite
Details
Expected funding Institutional funding
Status of funding Expected
Candidates
user sarah.cohen-boulakia
Created Friday 30 of May, 2014 12:00:43 CEST
LastModif Monday 01 of September, 2014 12:41:42 CEST


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info at lri.fr