IMPBIO

ACI IMPBio - Projet soutenu en 2004

[Accueil IMPBio]


 

MicroScope

 

Bases de données pour l’annotation et la ré-annotation de génomes bactériens à la lumière de résultats de synténie

http://www.genoscope.cns.fr/agc/MicroScope

 

Coordinateur

Claudine Medigue

cmedigue@genoscope.cns.fr

Atelier de Génomique Comparative CNRS-UMR8030

Equipes partenaires :

Responsable équipe 1



Claude SCARPELLI



CNRG Genoscope

 

Résumé

L’Atelier de Génomique Comparative est un groupe de bioinformatique qui développe des outils destinés à l’annotation et à l’analyse de génomes bactériens, tout en participant activement à différents projets d’annotation de génomes nouvellement séquencés, ou la réannotation de génomes publiés. Localisé au sein du Centre National de Séquençage (Genoscope), l’AGC est à la source même des données de séquences procaryotes produites par le centre. Les récents développements, réalisés dans le cadre de projets d’annotation spécifiques (en particulier des bases de données multigénomes intégrant l’ensemble des résultats de méthodes d’annotation et d’analyses comparatives, ainsi qu’une interface graphique Web d’annotation appelée MaGe), trouvent un écho tout à fait favorable au sein de la communauté des biologistes. Les demandes, en terme de projets d’annotation et de ré-annotation de génomes bactériens étant de plus en plus nombreuses, le groupe AGC souhaite développer, avec l’équipe informatique du Genoscope, une infrastructure informatique performante permettant de répondre à ces demandes.

Le présent projet a pour objectif d’offrir à la communauté des “Procaryotistes” un service destiné à la construction de base de données pour l’annotation et la ré-annotation de génomes bactériens complets. Ces bases thématiques reposent sur une base de données relationnelle multigénomes PkGDB (Prokaryotic Genome DataBase), qui contient les données d’annotation de génomes bactériens publiés. Ces données sont aussi enrichies de nos résultats d’annotation syntaxique (i.e, des gènes ‘putatifs’ absents des banques de séquence, ou au contraire des gènes annotés par ‘erreur’) et de résultats de génomique comparative (i.e, recherche d’orthologues et de groupes de synténie). Les axes prioritaires de ce service sont les suivants :

1) Le développement et la maintenance, à partir de l’instance PkGDB, des bases de données thématiques liées à chaque projet d’annotation ou de ré-annotation.
2) Le développement d’un “pipeline” automatique d’annotation facilitant l’intégration des données d’analyse dans les bases.
3) La mise en oeuvre d’une infrastructure informatique performante, visant à l’optimisation de l’architecture de la base de données et des requêtes, la gestion des mises à jour des données, et l’optimisation du serveur WEB des bases de données.
4) La formation et l’assistance à tous les utilisateurs aux outils d’analyses utilisés pour l’annotation syntaxique et fonctionnelle, et à l’interface d’annotation MaGe.

Ainsi, le développement de telles bases de données thématiques, en étroite collaboration avec les acteurs du projet HAMAP (High quality Automated and Manual Annotation of Microbial Proteomes) mit en place par A. Bairoch (SIB, Genève), devrait permettre d’offrir à la communauté nationale et internationale des données d’annotation toujours réactualisées, au moins pour une catégorie (que nous espérons large) de génomes bactériens.