Chargement...
 

Bioinformatics

Domaine
Bioinformatics
Domain - extra
Année
2014
Starting
01/10/2014
État
Closed
Sujet
Interrogation, réutilisation et adaptation de workflows scientifiques pour l’annotation systémique de génomes bactériens
Thesis advisor
COHEN-BOULAKIA Sarah
Co-advisors
Jean-Francois Gibrat, DR INRA Jouy-en-Josas
Laboratory
Collaborations
Abstract
Les masses de données produites par les sciences du vivant ont augmenté de façon spectaculaire ces dernières années. La tâche fondamentale de la bioinformatique est d’extraire des connaissances de ces masses de données brutes. Cela est réalisé grâce à l’assemblage d'une multitude d’outils et d’algorithmes. Des efforts considérables ont été faits dans le développement de systèmes d’aide à la conception et la gestion de tels assemblages de programmes d'analyse, appelés systèmes de gestion de workflows scientifiques. L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows sont actuellement disponibles.
L'objectif est de fournir un cadre d’'interrogation pour réutiliser et adapter les workflows existants en considérant le problème de la citation des workflows réutilisés. L’approche sera évaluée sur un ensemble de workflows d'annotation systémique de bactéries.
Context
La taille des jeux de données bioinformatiques a augmenté de façon spectaculaire ces dernières années. La tâche la plus importante effectuée sur ces de données est leur analyse réalisée par l'assemblage d'une multitude de scripts, d’outils et d’algorithmes. Des efforts considérables ont été fait dans le développement de systèmes pour soutenir la conception et la gestion de tels programmes complexes d'analyse, appelés systèmes de gestion workflows scientifiques (e.g., (Oinn et al., 2006) (Ludäscher et al., 2006)). L’utilisation de workflows garantit la reproductibilité d'une expérience et la possibilité de partager les moyens de produire des ensembles de données. De grands entrepôts de workflows bioinformatiques sont actuellement disponibles mais l’accès à leur contenu (interrogation) demeure une tâche complexe.
Objectives
L'objectif de cette thèse est de fournir aux scientifiques un cadre d’'interrogation pour réutiliser et adapter à leurs besoins les workflows existants tout en tenant compte du problème de la citation des workflows ainsi récupérés et réutilisés. Cette thèse se placera en partie dans le cadre du Lidex IMSV (Institut de Modélisation des Systèmes Vivants) dont l’un des objectifs est de constituer une base de workflows pour l'annotation systémique de génomes bactériens. Plus particulièrement, nous considèrerons trois tâches.
Work program
(1) Conception d’un cadre de comparaison de workflows et d’un langage de requêtes pour l’interrogation d’entrepôts de workflows. Le cadre devra considérer et combiner différents critères de similarité de workflows basés sur leur spécification et leurs exécutions (provenance). Les critères peuvent être basés sur une description textuelle, sémantique, ou sur la structure (graphe) des workflows. Le défi à relever est double : calculer la similarité entre workflows de façon rapide et fiable tout en offrant un langage de requêtes expressif pour l’interrogation efficace des entrepôts de workflows.
(2) Conception d’algorithmes pour tracer la réutilisation de workflows : conception d’une structure concise de représentation des workflows capable de rendre compte des différences (structurelles) entre les workflows.
(3) Preuve de concept dans le contexte d'annotation systémique de génomes bactériens en collaboration avec des scientifiques de l'INRA.

Extra information
Prerequisite
Détails
Expected funding
Institutional funding
Status of funding
Expected
Candidates
Utilisateur
sarah.cohen-boulakia
Créé
Vendredi 30 mai 2014 12:00:43 CEST
dernière modif.
Lundi 01 septembre 2014 12:41:42 CEST

Fichiers joints

 filenamecrééhitsfilesize 
Aucun fichier joint à cette fiche


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info à lri.fr