L’Atelier
de Génomique Comparative est un groupe de bioinformatique qui développe des outils
destinés à l’annotation et à l’analyse de génomes bactériens, tout en
participant activement à différents projets d’annotation de génomes
nouvellement séquencés, ou la réannotation de génomes publiés. Localisé au sein
du Centre National de Séquençage (Genoscope), l’AGC est à la source même des
données de séquences procaryotes produites par le centre. Les récents
développements, réalisés dans le cadre de projets d’annotation spécifiques (en
particulier des bases de données multigénomes intégrant l’ensemble des
résultats de méthodes d’annotation et d’analyses comparatives, ainsi qu’une
interface graphique Web d’annotation appelée MaGe), trouvent un écho tout à
fait favorable au sein de la communauté des biologistes. Les demandes, en terme
de projets d’annotation et de ré-annotation de génomes bactériens étant de plus
en plus nombreuses, le groupe AGC souhaite développer, avec l’équipe
informatique du Genoscope, une infrastructure informatique performante
permettant de répondre à ces demandes.
Le présent projet a pour objectif d’offrir à la communauté des “Procaryotistes”
un service destiné à la construction de base de données pour l’annotation et la
ré-annotation de génomes bactériens complets. Ces bases thématiques reposent
sur une base de données relationnelle multigénomes PkGDB (Prokaryotic Genome
DataBase), qui contient les données d’annotation de génomes bactériens publiés.
Ces données sont aussi enrichies de nos résultats d’annotation syntaxique (i.e,
des gènes ‘putatifs’ absents des banques de séquence, ou au contraire des gènes
annotés par ‘erreur’) et de résultats de génomique comparative (i.e, recherche
d’orthologues et de groupes de synténie). Les axes prioritaires de ce service
sont les suivants :
1) Le développement et la maintenance, à partir de l’instance PkGDB, des bases
de données thématiques liées à chaque projet d’annotation ou de ré-annotation.
2) Le développement d’un “pipeline” automatique d’annotation facilitant
l’intégration des données d’analyse dans les bases.
3) La mise en oeuvre d’une infrastructure informatique performante, visant à
l’optimisation de l’architecture de la base de données et des requêtes, la
gestion des mises à jour des données, et l’optimisation du serveur WEB des
bases de données.
4) La formation et l’assistance à tous les utilisateurs aux outils d’analyses
utilisés pour l’annotation syntaxique et fonctionnelle, et à l’interface
d’annotation MaGe.
Ainsi, le développement de telles bases de données thématiques, en étroite
collaboration avec les acteurs du projet HAMAP (High quality Automated and
Manual Annotation of Microbial Proteomes) mit en place par A. Bairoch (SIB,
Genève), devrait permettre d’offrir à la communauté nationale et internationale
des données d’annotation toujours réactualisées, au moins pour une catégorie
(que nous espérons large) de génomes bactériens.