IMPBIO

ACI IMPBio - Projet soutenu en 2003 et 2006


 

SuperTree

Méthodes bioinformatiques pour l'analyse de super-matrices et la reconstruction de super-arbres, et étude de l'impact des données génomiques manquantes en phylogénie.

http://www.isem.univ-montp2.fr/PPP/PM/RES/Info/@Supertrees_ACI_IMPBio.php

Coordinateur

Emmanuel Douzery

Institut des Sciences de l'Evolution de Montpellier (ISEM, UMR 5554 CNRS).

Equipes partenaires :

Responsable équipe 1



Vincent Berry



Laboratoire d’Informatique de Robotique et de Micro-électronique de Montpellier (LIRMM, UMR 5506 CNRS).

Responsable équipe 2

Francois Chevenet

UMR IRD/CNRS 9926, Institut de recherche pour le Développement, Montpellier.

Responsable équipe 3

Hervé Philippe

Département de Biochimie, Université de Montréal, Montréal, Canada.

 

poster

Objectifs initiaux

L'explosion récente de la quantité de séquences d'ADN, ARN, et protéines disponibles chez une grande quantité d'organismes offre actuellement l'opportunité d'appréhender des questions complexes de biologie évolutive, allant de la reconstruction de l'histoire évolutive des espèces, la phylogénie, jusqu'à l'identification des mécanismes qui en sont le moteur, les spéciations. Cependant, l'exploitation de l'énorme masse de données de l'ère post-génomique dans une perspective comparative entre taxons se heurte à trois problèmes :

(i) la mise en œuvre de méthodes probabilistes, coûteuses en temps de calcul, et complexes en modélisation réaliste de l'évolution des caractères moléculaires (nucléotides, acides aminés),

(ii) l'évaluation de l'impact sur les inférences phylogénétiques de l'existence de données manquantes. Des caractères moléculaires sont par exemple manquants lors d'insertions / délétions dans les gènes, lors de la perte de gènes dans les génomes, et surtout suite à l'échantillonnage génomique incomplet de la biodiversité à appréhender,

(iii) l'absence d'outils permettant non seulement la gestion et l'intégration de jeux de données chevauchants de type variés concernant des centaines (voire des milliers) de taxons dans une analyse de type super-matrice ou super-arbre, mais une visualisation pertinente des résultats, proposant entre autre des mesures objectives de la qualité des résultats.

Le premier problème a été partiellement abordé, pour le maximum de vraisemblance et l'analyse Bayésienne, et une solution a par exemple été proposée au travers du logiciel PHYML. Le second problème est quant à lui relativement inexploré, et passe par l'étude de "super-matrices" — i.e. des matrices de N espèces pour C caractères présentant une part parfois importante de données manquantes — et, de manière complémentaire, par la construction de "super-arbres" — i.e. des phylogénies synthétiques associant plusieurs phylogénies partielles obtenues à partir de sous-ensembles de taxons partiellement disjoints. Quant au troisième problème, les logiciels dédiés aux super-matrices et super-arbres sont actuellement chacun restreint à une analyse bien particulière des données, tandis que la gestion des caractères génomiques et l'analyse des inférences phylogénétiques ne sont que très peu abordées.

Le présent projet comporte donc trois volets :

(i) tout d'abord le développement d'algorithmes d'inférences de super-arbres, d'analyse probabiliste de super-matrices de caractères, et la création d'un outil graphique intégré pour gérer l'hétérogénéité des types de données et des ensembles de taxons, permettant de guider des analyses de super-matrices et super-arbres effectuées sur des centaines ou des milliers de taxons, ainsi que d'évaluer de façon pertinente la qualité des résultats, de localiser rapidement les incongruences ;

(ii) ensuite la construction d'outils de simulation de données manquantes et l'évaluation de leur impact en termes d'exactitude phylogénétique,

(iii) enfin la validation et la comparaison de ces approches, sur des données réelles empruntées aux organismes largement échantillonnés en termes génomiques et taxonomiques (eubactéries, eucaryotes, plantes à fleurs, et mammifères).

La faisabilité de ce projet sera assurée par l'existence de collaborations entre les différentes équipes partenaires :

- Institut des Sciences de l'Evolution de Montpellier (ISEM, UMR 5554 CNRS),

- Laboratoire d’Informatique de Robotique et de Micro-électronique de Montpellier (LIRMM, UMR 5506 CNRS)

- Laboratoire Génétique des Maladies Infectieuses (UMR IRD/CNRS 9926), IRD Montpellier,

- Département de Biochimie de l'Université de Montréal.




Erreur SQL !
SELECT * from tbl_user WHERE pseudo = 'Emmanuel Douzery';
Access denied for user 'www-data'@'localhost' (using password: NO)