IMPBIO

ACI IMPBio - Projet soutenu en 2003 et 2006


 

EIDIPP

Etude Interdisciplinaire des Interactions Protéine-Protéine
de la structure des interfaces de contact à la combinaison de domaines interagissants et aux graphes d'interactions entre protéines grâce à la biologie structurale, la protéo-bioinformatique, les statistiques et l'informatique.

http://139.124.8.79/~bernard/EIDIPP/

Coordinateur

Bernard Jacq

Laboratoire de Génétique et Physiologie du développement, Marseille

Equipes partenaires :

Responsable équipe 1



Alain Guénoche



Institut de Mathématiques de Luminy, Marseille

Responsable équipe 2

Joel Janin

Laboratoire d'Enzymologie et Biochimie Structurales, Gif/Yvette

Responsable équipe 3

Daniel Kahn

Laboratoire des Interactions Plantes-Microorganismes INRA/CNRS, Castanet-Tolosan

Responsable équipe 4

Irène Charon

Ecole Nationale Supérieure des Télécommunications, Paris

 

 

Objectifs initiaux

L'objectif général du projet EIDIPP présenté par un consortium de 5 équipes est d'étudier une question biologique spécifique aux implications multiples, celle des interactions protéine-protéine (IPPs), par un ensemble d'approches biologiques et formelles dont la combinaison, originale, n'a pas encore été utilisée sur une échelle importante. Les IPPs seront étudiées à trois niveaux de granularité biologique croissante:

- celui de l'étude fine (atomique) des interfaces de protéines en interaction grâce à la biologie et la bioinformatique structurales. Il s'agit donc d'une étude des interactions protéine-protéine au niveau de la Protein Data Bank (Equipe J. Janin)

- nous aborderons ensuite le niveau supérieur des combinaisons de domaines spécifiques présents dans des centaines de protéines interagissantes par la bioinformatique et la statistique, c'est à dire le rôle des domaines protéiques dans les interactions et la prédiction d'interactions sur la base de la co-occurrence de domaines (Equipe D. Kahn)

- Le troisième niveau sera constitué par l'étude bioinformatique structurale et fonctionnelle du graphe des IPPs au niveau de protéomes entiers (Interactome des IPPs). Partant de la constitution de listes d'interactions binaires, nous étudierons la structure des graphes d'IPPs et poursuivrons le développement de la méthode Prodistin, une méthode de classification et prédiction fonctionnelle des protéines basée sur l'analyse des proximités de protéines dans un graphe d'IPPs (Equipe B. Jacq).

- Chacune de ces études sera sous-tendue par des collaborations à différents niveaux avec deux équipes d'informaticiens et mathématiciens (équipes A. Guénoche et I. Charon) impliqués dans l'analyse de graphes d'interactions (recherche de classes denses), la représentation de ces classes dans les graphes, l'établissement d'un modèle probabiliste de prédiction d'interactions et l'étude de problèmes de discrimination de faux et vrais positifs dans les analyses structurales. La plupart de ces développements débouche sur des questions nouvelles en mathématiques discrètes et en algorithmique.

Concernant la biologie structurale (J. Janin), il s'agit d'une analyse comparée des caractéristiques géométriques (dimension et forme) et biochimiques (composition en acides aminés) d'interfaces protéine-protéine 'spécifiques' (ceux des complexes et des protéines oligomériques) et 'non-spécifiques' (contacts cristallins). Les objectifs sont (a) de trouver des paramètres discriminant les faux positifs dans le docking, (b) d'identifier les protéines oligomériques dans la PDB, (c) de repérer les régions de la surface des protéines qui ont des chances d'être impliquées dans des interactions protéine-protéine. Outre l'analyse détaillée de dizaines d'interfaces expérimentalement connues (cristallographie) et de centaines d'interactions non encore détaillées (pa docking informatique), un appel important à l'informatique et aux statistiques est nécessaire: en premier lieu la recherche par apprentissage ou discrimination des meilleurs descripteurs (ou leur combinaison) des interfaces protéines-protéines. On peut aussi citer la réalisation de systèmes de parsing de la base PDB pour l'extraction automatique (et son évaluation) de fichiers répondant à des critères paramétrables comme: "protéines dimériques de résolution au moins égale à 2,3 Å".

Concernant l'étude des domaines structuraux présents dans des couples de partenaires en interaction (D. Kahn), il s'agit d'étudier systématiquement, sur de gros ensembles de paires de protéines en interaction, les corrélations entre la présence d'une interaction et la présence de domaines particuliers. Le résultat sera une estimation des probabilités d' interaction entre domaines. Réciproquement, ces probabilités serviront à calculer des probabilités d'interactions entre protéines, sur la base de leurs arrangements en domaines. La méthode sera validée sur les interactomes les mieux caractérisés, puis appliquée systématiquement à l'ensemble des génomes complets. Les résultats de ces analyses seront intégrés à ProDom-CG (la restriction de ProDom aux génomes entièrement séquencés). Ultérieurement, cette approche sera combinée avec l'approche structurale pour permettre de discriminer les domaines incompatibles d' un point de vue structural, quand bien même d'autres domaines homologues interagissent effectivement.

Concernant enfin l'étude fonctionnelle à grande échelle des interactions (B. Jacq), il s'agit d'une part de développer la méthode PRODISTIN (dont un prototype a été mis au point au laboratoire) permettant de produire des classifications et prédictions fonctionnelles de protéines en utilisant les interactions. Il s'agira aussi d'évaluer statistiquement les performances des classifications et prédictions en fonction de paramètres différents (méthode d'obtention des interactions, nombre d'interactions/protéine, faux positifs et faux négatifs, … ). Il s'agira encore d'enrichir nos collections d'interactions expérimentalement démontrées et décrites dans la littérature (en utilisant un système informatique de détection automatique d'interactions dans des résumés Medline mis au point au laboratoire). Nous utiliserons ces interactions avec les nouvelles versions de la méthode PRODISTIN pour produire des classifications fonctionnelles de protéomes de plusieurs organismes, permettant ainsi une approche des interactomes au cours de l'évolution grâce à l'intégration de données sur les protéines orthologues. Par ailleurs, des prédictions de fonction pour plusieurs dizaines de protéines inconnues pour lesquelles des données d'interaction sont disponibles seront réalisées. Ces interactions seront enfin mises à profit pour les analyses structurales d'interfaces et de domaines proposées dans les deux paragraphes précédents.

Ainsi que nous l'avons déjà décrit en partie, l'informatique et les statistiques seront fortement présentes dans les trois sous-thématiques précédemment définies:

Dans la partie biologie structurale, nous utiliserons plusieurs méthodes de discrimination appliquées à différents descripteurs des interfaces pour faire ressortir les modes d'interaction les plus vraisemblables et différencier les couples de protéines en interaction biologique (vrais positifs) des couples dont l'interaction est prédite par docking mais n'exist pas (faux positifs). Concernant l'étude des domaines structurau , le point clé est le modèle probabiliste des interactions entre protéines et l'analyse statistique des données d'interaction. Enfin dans la sous-thématique Prodistin, l'informatique et les statistiques seront également au coeur de différents niveaux (recherche de classes de protéines de densité maximum formant les cliques maximales du graphe d'interaction, visualisation de sous-ensembles de graphes complexes, analyse combinatoire et méta-heuristiques, probabilités de prédiction d'interaction, simulation de Prodistin sur de réseaux aléatoires et de composition prédéfinie). En commençant par la mise en oeuvre de méthodes informatiques et statistiques éprouvées, les groupes d'A. Guénoche (comprenant les Statisticiens et probabilistes B. Gattaz et E. Remy) et d' I. Charon (graphes et combinatoire) seront très rapidement amenés à développer de nouvelles méthodologies originales adaptées aux différentes problématiques.

Nous pensons enfin que l'approche proposée sera réellement synergique, les résultats des différentes approches s'enrichissant mutuellement: ainsi, la constitution de listes d'interactions validées sera utilisée pour une recherche systématique de domaines dans des listes de couples ayant une représentation statistique suffisante et sera à la base de la constitution de sous-ensembles de protéines de structure est connue servant au docking informatique. Réciproquement, la combinaison des l'approches structurale et en domaines pour la prédiction des interactions devrait être extrêmement prometteuse, les prédictions de l'une pouvant être testées par l'autre. Enfin ces méthodes prédictives pourront être utilisées par PRODISTIN pour inférer des réseaux d'interaction dans des espèces pour lesquelles les données d'interactome ne sont pas encore disponibles.

Quand aux retombées de la mise en œuvre d'un tel programme, il semble superflu d'insister sur les conséquences importantes aux niveaux fondamental et appliqué (médical en particulier) qu'une meilleure compréhension des IPPs pourrait apporter. Au niveau informatique, le développement de plusieurs méthodologies bioinformatiques originales ainsi que l'amélioration de bases de données déjà existantes (PRODOM) ou à créer (base d'interactions GINdb, serveur de structures quaternaires) vont enrichir la bioinformatique du protéome.



 

Erreur SQL !
SELECT * from tbl_user WHERE pseudo = 'Bernard Jacq';
Access denied for user 'www-data'@'localhost' (using password: NO)