Sarah Cohen Boulakia - Réutilisation de workflows d'analyse de données biologiques

12:00
Tuesday
3
May
2016
Speaker: 
Sarah Cohen Boulakia
Orateur : Sarah Cohen-Boulakia est Maître de conférences HDR à l'Université Paris-Sud en informatique dans l'équipe Bioinformatique du Laboratoire de Recherche en Informatique où elle s'intéresse à l'intégration de données biologiques massives et plus particulièrement à la comparaison et la provenance dans les workflows scientifiques ainsi qu'au classement de données biologiques (Bioinformatique, Bases de données, algorithmique des graphes et combinatoire).
L'intégration des masses de données biologiques est un besoin fort pour faire progresser les connaissances en biologie. De très nombreuses analyses doivent être effectuées pour traiter ces données hautement hétérogènes, impliquant des outils bioinformatiques variés et nombreux. Dans cet exposé, nous nous intéressons au partage et à la réutilisation des méthodologies d'analyse de données, souvent formalisées (pour une meilleure reproductibilité des analyses) sous la forme de workflows scientifiques, dans lesquels les étapes d'analyse et l'enchaînement de ces étapes sont spécifiées. Nous présentons d'abord les résultats de l'étude approfondie que nous avons menée de la réutilisation des workflows disponibles dans les entrepôts de workflows majeurs. Face au faible taux de réutilisation que notre étude met en évidence, nous proposons, pour y remédier, des contributions selon deux axes. Premièrement, nous présentons des méthodes d'interrogation d'entrepôts de workflows efficaces et précises permettant aux utilisateurs de retrouver des analyses pré-existantes et similaires à celles qu'ils souhaitent entreprendre (travail avec l'université d'Humboldt, Berlin). Deuxièmement, nous présentons des travaux qui visent à réduire la complexité structurale des workflows, qui peuvent avoir des structures de graphes très complexes, pour rendre les workflows scientifiques plus lisibles et facile à interpréter (donc à réutiliser) pour l'utilisateur, dans le cadre de deux projets : ZOOM*userviews (avec l'université de Pennsylvanie) et DistillFlow (avec l'université de Manchester).