Loading...
 
[Show/Hide Left Column]

Sujets Help

View Item

Domain Bioinformatics
Domain - extra Bases de Données, Algorithmique sur les graphes
Year 2010
Starting Octobre 2010
Status Open
Subject Etude de la structure et de la qualité des workflows scientifiques pour guider les biologistes dans la conception de workflows et l’analyse de leurs exécutions
Thesis advisor FROIDEVAUX Christine
Co-advisors Sarah Cohen-Boulakia, MCF, LRI (CNRS UMR 8623)
Laboratory LRI Bioinfo
Collaborations Le travail de thèse portera principalement sur les workflows d’analyse de données de séquençage et d’annotation de génomes de bactéries qui jouent un rôle important pour la santé. Il sera réalisé en étroite collaboration avec les microbiologistes et annotateurs de l’IGM (Orsay), et de l’INRA (Jouy-en-Josas, Rennes, Montpellier), ainsi qu’avec les bioinformaticiens de MIG (INRA Jouy).
Abstract Face au nombre croissant de génomes séquencés, il devient crucial de guider les microbiologistes dans la tâche fondamentale d’annotation. Dans ce contexte, les workflows scientifiques proposent un cadre pour représenter et échanger les diverses méthodologies d’analyse. Des entrepôts de workflows sont aujourd’hui disponibles ainsi que des librairies d’outils pouvant être utilisés dans un workflow.
Nous proposons d’assister les experts à trois étapes.
(i) Réutilisation et maintenance de (sous-)workflows : mise en évidence des motifs similaires des workflows disponibles pour dégager des sous-workflows réutilisables ;
(ii) Recherche de workflows : identification de workflows d’analyse existants, en exploitant des motifs de tâches donnés ;
(iii) Interprétation des annotations obtenues par les exécutions de workflows : comparaison des résultats de différentes exécutions de workflows en estimant la qualité relative des résultats produits.
Context Les méthodes de séquençage des génomes deviennent très puissantes, induisant un coût de séquençage faible, si bien que le nombre de génomes séquencés croît exponentiellement. Il faut ensuite analyser ces séquences, pour en extraire des connaissances biologiques sur les organismes étudiés. L’annotation fonctionnelle consiste à attribuer des fonctions aux protéines des génomes. Cette tâche se fait par le biais de workflows d’analyse décrivant les étapes qui mènent à une annotation exploitant des données provenant de sources diverses et d’une qualité variable : programmes bioinformatiques, entrepôts biologiques et expériences à grande échelle. Même pour un génome bactérien contenant un petit nombre de protéines (entre 1000 et 2000) c’est un travail considérable, qui prend un temps trop important (près d’une année). Il est donc crucial d’assister les experts dans cette tâche d’annotation : leur proposer des workflows répondant à leurs besoins et évaluer la qualité des résultats obtenus.
Objectives L’objectif est double.
(i) Améliorer la productivité des annotateurs :
Chaque workflow d’annotation correspond à une expertise et comporte différentes étapes qui s’enchaînent, utilisant des outils particuliers, consommant et produisant des données d’un certain type. On souhaite permettre à un utilisateur d’exploiter l’expertise de collègues en réutilisant et identifiant des workflows d’analyse ou des sous-workflows fréquemment utilisés.
(ii) Assister l’utilisateur dans l’interprétation des annotations obtenues : Chaque workflow peut être exécuté de diverses façons (variation des données et paramètres). Interpréter des annotations nécessite de pouvoir évaluer la qualité des annotations. Pour cela, il faut connaître et comparer leur provenance, c-a-d, les exécutions qui les ont fournies. Cette comparaison prendra en compte plusieurs critères de qualité (e.g., fiabilité des données ou ordre dans lequel certains outils sont utilisés).

Work program Le travail comporte 3 phases
(1) Extraction de motifs : Définition de la similarité entre motifs dans des workflows. Un workflow est un graphe dont les nœuds sont des tâches, et les motifs des sous-graphes. La similarité entre motifs exploitera l’organisation des tâches dans une ontologie (e.g. BioCatalogue). Conception d’algorithmes de fouille de données pour l’extraction de ces motifs similaires.
(2) Interrogation de workflows : Définition et implémentation d’un cadre d’interrogation pour les workflows et leurs exécutions, fondé sur la notion de motifs similaires (graphes ayant un sous-graphe similaire).
(3) Comparaison de la qualité des exécutions d’un workflow : En collaboration avec les experts, recensement des critères de qualité pertinents, évaluation de la qualité des outils et des enchaînement d’outils dans les motifs extraits. Conception d’algorithmes de comparaison des graphes de provenance en prenant en compte la qualité des motifs pertinents pour l’expert.
Extra information
Prerequisite Master M2 Recherche en informatique ou en Bioinformatique

Aucune connaissance en biologique n'est nécessaire mais une certaine curiosité pour la génomique fonctionnelle est attendue
Details
Expected funding Institutional funding
Status of funding Expected
Candidates Jun LI
user
Created Friday 26 of February, 2010 13:40:44 CET
LastModif Friday 18 of June, 2010 13:13:11 CEST


Ecole Doctorale Informatique Paris-Sud


Directrice
Nicole Bidoit
Assistante
Stéphanie Druetta
Conseiller aux thèses
Dominique Gouyou-Beauchamps

ED 427 - Université Paris-Sud
UFR Sciences Orsay
Bat 650 - aile nord - 417
Tel : 01 69 15 63 19
Fax : 01 69 15 63 87
courriel: ed-info at lri.fr