Auteur Sujet: Rosetta@home : qu'est ce que c'est ?  (Lu 6656 fois)

0 Membres et 1 Invité sur ce sujet

pas93

  • Messages: 8816
  • Boinc'eur devant l'éternel
  • *****
Rosetta@home : qu'est ce que c'est ?
« le: 17 juin 2006 à 14:04 »
Site officiel: http://boinc.bakerlab.org/rosetta/



Contre quoi rosetta@home aide à lutter?


Malaria: La malaria est provoquée par un parasite qui passe une partie de son cycle de vie à l'intérieur du moustique, et qui se transmet ensuite aux humains par des piqures de moustique. L'idée derrière le projet est de rendre des moustiques résistants au parasite en éliminant les gènes dont le parasite à besoin pour vivre dans le moustique. Rosetta@home simulera les nouvelles enzymes qui viseront spécifiquement et inactiveront ces gènes.

 

Anthrax Nous employons ROSETTA pour aider le groupe de recherche de John Collier à Harvard à établir les modèles de la toxine d'anthrax qui devraient contribuer au développement de traitements contre cette toxine. Vous pouvez lire l'extrait d'un article décrivant une partie de ce travail sur http://www.pnas.org/cgi/content/abstract/102/45/16409.

 

 VIH :Une des raisons pour laquelle le VIH ( sida) est un virus si mortel est qu'il a évolué pour duper le système immunitaire. Nous collaborons avec des chercheurs à Seattle et au NIH pour essayer de développer un vaccin pour le VIH. Notre rôle dans ce projet est central : nous employons ROSETTA@home pour concevoir les petites protéines qui montrent le nombre de régions critiques de la protéine de manteau VIH d'une manière que le système immunitaire peut facilement identifier et ainsi produire des anticorps. Notre but est de créer les petits vaccins stables de protéines qui peuvent être fabriqués à très bon marché et être embarqués partout dans le monde.

 

D'autres virus : Nous avions collaboré avec le laboratoire de PAM Bjorkman à la technologie de calorie pour employer la méthodologie d'amarrage de protéine-protéine de ROSETTA afin d'établir des modèles des protéines recto de virus d'herpès avec d'autres protéines humaines.

 

La maladie d'Alzheimer : Alzheimer et beaucoup d'autres maladies sont susceptibles d'être provoquées par des protéines se pliant pour former une structure appelée amyloïdes. Une grande avancée a été récemment faite par le groupe de recherche de David Eisenberg's à UCLA en résolvant la première structure d'une amyloïde. Nous collaborons avec leur groupe de recherche pour employer la structure afin de prévoir quelles parties des protéines sont susceptibles de former les amyloïdes, ce qui sera une première étape pour bloquer la formation et si tout va bien la maladie amyloïdes.

 

Cancer : Le Cancer peut être provoqué par des mutations dans les gènes principaux qui perturbent des procédés cellulaires normaux de commande. Nous développons des méthodes pour couper l'ADN aux emplacements spécifiques dans le génome, et nous viserons les emplacements qui sont impliqués dans le cancer. Après que ces emplacements soient coupés, ils devraient être réparés par la cellule en utilisant une seconde mutation de gène et la cellule ne devrait plus être cancéreuse.

 

Cancer de Prostate : Le récepteur d'androgène (AR) lie la testostérone et est responsable du développement masculin normal. Quand l'AR devient hypersensible à la testostérone, le cancer de prostate survient. Le traitement courant pour le cancer de prostate, appelé la "thérapie d'hormone", implique d'abaisser la quantité de testostérone disponible (parfois par castration). Beaucoup de tumeurs malignes sont cependant résistantes à cette thérapie, ainsi nous appliquons notre méthodologie de conception de protéines pour trouver différents moyens d'empêcher l'AR et donc de traiter le cancer de la prostate. Spécifiquement, nous essayons de concevoir les protéines qui neutraliseront l'AR même en présence de la testostérone. Nous faisons ceci en concevant les protéines qui empêcheront l'AR d'écrire le noyau de la cellule, et en les empêchant également de lier l'ADN et d'activer les gènes tumeur-spécifiques même si elle entre dans le noyau.

Prédiction et représentation des Structures Macromolléculaires et interactions:

Introduction

Représentation de la Structure des Proteines

Représentation des Interactions entre protéines

Prédiction de la structure des Proteines

Prédiction des Interactions entre proteines

Développement du modèle physique

Plans pour le futur

 

Introduction:

Le but de notre recherche actuelle est le développement d'un modèle d'interaction intra et intermoleculaire amélioré, et d'utiliser ce modèle pour imaginer et concevoir des structures macromoléculaires et leurs interactions. Ces applications de prévision et de conception, lesquelles peuvent avoir de fait un grand intérêt en biologie, mais aussi fournir des tests rigoureux et objectifs qui améliorent le modèle et accroissent la compréhension fondamentale. Nous utilisons un programme informatique appelé Rosetta pour exécuter les calculs des protéines et leur visualisation. Au coeur de Rosetta, il y a de nombreuses fonctions pour le calcul des énergies d'interaction à l'intérieur et entre les macromolécules, ainsi que des méthodes pour trouver la plus petite strucutre d'énergie pour une séquence d'acide aminé (prédiction de structure protéinaire) ou un complexe protéine-protéine, et la plus petite séquence énergétique d'acide aminé pour une protéine ou un complexe protéine-protéine (conception d'une protéine). La réaction à partir des tests de prévision et de conception était continuellement utilisée pour améliorer les fonctions de calcul et la recherche d'algorithmes. Le déveploppement d'un programme de calcul qui contrarie ces divers problèmes était un avantage considérable : premièrement, les différentes applications fournissent des tests complémentaires pour le modèle physique de sous-couche (la physique/chimie physique fondamentale est, bien sûr, la même dans tous les cas) ; deusièmement, beaucoup de problèmes d'actualité, comme la représentation de la colonne protéinaire flexible et l'arrimage protéine-protéine avec la flexibilité de la colonne, entrainent une combinaison de différentes méthodes d'optimisation.

 

 

Représentation de la strucutre des protéines:

Il y a quelques années, nous avons utilisé notre méthode de conception de protéines informatisée pour stabiliser de façon critique quelques petites protéines en redessinant chaque élément de leur séquence, pour retracer la conformation de la chaine principale des protéines, pour convertir une protéine monomèrique vers une variante par translocation de brins, et pour thermostabiliser une enzyme. Le point culminant fut le retraçage du cheminement de la pliure de la protéine G, une petite protéine contenant deux béta-hairpins (épingle à cheveux) séparées par une alpha-helix (hélice). Dans la présente protéine naturelle, la première épingle est interrompue et la seconde est formée à l'étape du taux limite de pliage. Dans une variante retracée dans laquelle la première épingle est stabilisée de façon significative et la seconde déstabilisée, l'odre des évènements est renversé : la pemière épingle est formée et la seconde interrompue dans l'état de transition du pliage. La capacité de redessiner convenablement les cheminements des pliures des protéines montre que notre compréhension des déterminantes des pliures de protéines a avancé considérablement.

 


à gauche, Tanja Kortemme. a droite, Gautam Dantas.

Figure 1: Traçage de protéines et d'interactions protéines-protéines avec une précision haute résolution. Comparaison de traçage de modèles et de structure en cristal entre (à gauche) une interface 'novel' représentant une endonuclease avec les nouvelles spécifications des clivages ADN, et (à droite) le 'de novo' représentant la protéine TOP7.

 

Récemment, une création particulièrement intéressante de protéines originales avec des strucutres tri-dimentionnelles arbitrairement choisies a été établie. Nous avons développé une stratégie générale de calcul pour créer ces structures de protéines qui incorpore la flexibilité de la chaine principale dans l'optimisation de la séquence spirallée. Ceci a été accompli par intégration ab initio de la prédiction des structure des protéines, le raffinement de l'énergie au niveau atomique, et le traçage des séquences dans Rosetta. La procédure a été utilisée pour dessiner une portéine de 93 éléments appelée TOP7 avec une séquence et une topologie originales. TOP7 fut trouvé comme étant monomèrique et plié, et la structure en cristal aux rayons X de TOP7 est extraordinairement similaire (RMSD = 1,2 Amgström ; voir la partie droite de la figure 1) au modèle tracé. La représentation d'un nouveau pli de protéine globulaire, et la correspondance intime de la structure du cristal avec le modèle tracé a de grandes implications pour la visualisation de protéine et la prédiction de structure de protéines, et ouvre la porte à l'exploration de larges territoires de l'univers de protéines non encore observées dans la nature.

 

 

Représentation des Interactions Protéine-Protéine

Pour étendre ces méthodes aux interactions protéine-protéine, et particulièrement pour le retraçage des spécificités d'interaction, nous avons choisi le complexe de haute affinité entre colicin E7 DNase et ces inhibiteurs d'immunité des protéines analogues comme un programme modèle. Nous avons utilisé le modèle physique décrit ci-dessus et une modification de notre stratégie de calcul de traçage basé sur la recherche de rotamères pour générer une paire inhibiteurs DNase de protéines originales, prévue pour interagir étroitement avec une autre, mais pas avec des protéines de type délirant. Les protéines complexes désignées ont des affinités subnanomolaires, sont fonctionnelles et spécifiquement in vivo, et ont plus d'un ordre d'ampleur de différence d'affinité entre les paires analogues et non analogues in vitro. Cette approche doit être appicable pour la représentation des paires de protéines interactives avec des spécificités originales pour esquisser et réinventer les réseaux d'interaction des protéines dans les cellules vivantes.

En collaboration avec les groupes de recherche de Barry Stoddart et Ray Monnat (Fred Hutchinson Cancer Research Center), nous avons généré un endonucléase artificiel et hautement spécifique par fusion de domaines d'hébergement d'endonucléases I-DmoI et I-CreI à travers l'optimisation de calcul d'une nouvelle interface domaine-domaine entre ces protéines normalement non interactives. L'enzyme résultante, l'E-DreI (Engineered I-DmoI/I-CreI), relie une longue et chimérique zone ciblée ADN avec des affinités nanomolaires, la séparant de façon précise à un taux équivalent de ses parents naturels. Nous sommes à présent en train d'essayer de générer de nouvelles endonucléases par extension de notre méthodologie de représentation des interfaces acide nucléique-protéine pour retracer l'interface ADN-protéine.

Dans ces deux systèmes, il a été possible de déterminer les structures en cristal aux rayons X des complexes désignés. Comme dans le cas TOP7, les structures actuelles sont trés proches des modèles représentés (figure 1, côté gauche), ce qui valide la précision de notre approche du modelage haute résolution.

Prédiction de la structure des Proteines:

L'image de pliage de protéines qui a motivé notre approche pour la prédiction des structures tertiaires des protéines ab initio, c'est celle d'interactions locales influençant des séquences en faveur de maillons de la chaine pour échantillonner des ensembles distincts de structures locale, et celles d'interactions non locales qui selectionnent les plus basses structures tertiaires d'énergie libre à partir de beaucoup de conformations compatibles avec ces influences locales. En implémentant la stratégie suggérée par cette image, nous utilisons différents modèles pour traiter les interactions locales et non locales. Plutôt que de tenter un modèle physique pour les relations séquence-structure locales, nous nous tournons vers la base de données des protéines et utilisons la répartition des structures adoptées par séquences courtes (moins de 10 éléments en longueur) dans les structures tri-dimentionnelles connues comme une approximation de la répartition des structures échantillonnées par peptides isolés avec les séquences correspondantes. Les interactions non locales primaires considérées sont mortellement hydrophobes, électrostatiques, liés à l'hydrogène par la chaine principale, et d'un volume exclusif. Les structures qui ont une concordance simultanée avec à la fois la séquence de structure locale influente et les interactions non locales, sont générées en utilisant la recuite simulée pour minimiser l'énergie d'interaction non locale dans l'espace défini par les répartitions des structures locales.

 

Figure 2: Prédictions de structure aveugle de CASP3 et CASP4.

A : A gauche, structure en cristal de la transcription du facteur lié à l'ADN 'MarA' ; à droite, notre meilleur modèle soumis dans CASP3. Malgrè beaucoup de détails incorrects, la pliure globale est prédite avec suffisemment d'exactitude pour permettre des aperçus à l'intérieur du mode de liaison de l'ADN.

B : A gauche, la structure en cristal du bacteriocine AS-48 ; au milieu, notre meilleur modèle soumis dans CASP4 ; à droite, une protéine apparentée à une autre structurée et fonctionnelle (NK-lysin) identifiée en utilisant ce modèle dans une recherche basée sur la structure de la banque de donnée des protéines (PDB). La similarité structurelle et fonctionnelle n'est pas reconnaissable en utilisant les méthodes de comparaison séquentielles (l'identification entre les deux séquences est seulement de 5 pour cent).

C : A gauche, une structure en cristal du second domaine de MutS ; au milieu, notre meilleur modèle pour ce domaine soumis dans CASP4 ; à droite, une protéine structurellement proche (RuvC) avec une fonction apparentée reconnue en utilisant le modèle d'une recherche basée sur la structure issu de la PDB. La similitude n'était pas reconnue en utilisant les méthodes de comparaison séquentielle ou de reconnaissance de pliure.

Image: Rich Bonneau

 

 

Rosetta a été soumis aux expériences bi-annuelles du CASP (Assises Critiques de la Prédiction de Strucutures) dans lesquelles les prédicteurs sont mis au défi de prédéterminer "à l'aveugle" les structures adoptées par les séquences de protéines, celles-ci ayant été définies mais pas encore publiées. Depuis CASP3 en 1998, Rosetta a continuellement été la meilleure méthode de calcul pour les prédictions ab initio comme cela a été rapporté par des observateurs indépendants. Dans l'expérience CASP4, par exemple, Rosetta a été testé sur 21 protéines. Les prédictions pour ces protéines, dont les similitudes dans les lacunes de séquence détectables avec des protéines avec une structure déterminée précédement, furent d'une précision et cohérence encore sans précédent. (Quelques exemples sont présentés Figure 2.) D'excellentes prédictions ont aussi été faites lors des expériences de CASP5 et CASP6. Encouragés par ces resultats prometteurs, nous avons généré des modèles pour toutes les familles de macro-proteines dont la longueur est composée de moins de 150 acides aminés.



Figure 3: La première finalisation d’une résolution de niveau atomique d’une prédiction aveugle de structure ab initio – CASP6 T281. La méthodologie de raffinement haute résolution décrite dans le texte a produit un modèle à 1,5 Angström RMSD près de la structure en cristal (à gauche), avec les aspects du paquetage de la chaine latérale originelle (à droite).

Image: Phil Bradley

 

Un des points forts de CASP6 était la prédiction du premier 'de novo' aveugle qu'a utilisé notre méthodologie d'amélioration haute résolution pour atteindre une exactitude proche de la haute résolution. La séquence relativement courte (76 éléments) nous permet d'appliquer notre méthodologie d'amélioration atome par atome non seulement pour les séquences originelles, mais aussi pour les séquneces de beaucoup d'homologues. Le centre du groupe d'énergie le plus bas des structures se déplace pour être remarquablement fermé pour les structures natives (1,5 Angström, Figure 3). Le protocole d'amélioration haute résolution réduit le RMSD de 2,2 à 1,5 Angström, et le jeu de chaines latérales dans un comportement assez ressemblant à l'original dans le centre des protéines (Figure 3, partie droite).

Nous avons étendu la stratégie de prédiction ab initio de structure de Rosetta au problème de l'utilisation de données expérimentales limitées pour générer des modèles de protéines. Par incorporation de déplacement chimique, d'informations NOE, et plus récemment d'informations dipolaires couplées dans la procédure de génération de structure de Rosetta, nous avons été cappables de générer bien plus de modèles exacts qu'avec la seule prédiction ab initio de structure, ou lors de l'utilisation des mêmes données limitées avec la méthodologie de génération de structure par résonnance magnétique nucléaire (NMR) conventionnelle. Ce passionnant développement récent de la procédure de Rosetta permettra alors d'exploiter des données NMR non attribuées et de là contourner la difficulté et l'étape fastidieuse de l'affectation du spectre NMR.

La méthode de prédiction de structure ab initio de Rosetta, celle de la détermination de structure NMR basée sur Rosetta, et la nouvelle pour la représentation comparative qui utilise l'approche de novo de Rosetta afin de modéliser une partie d'une structure (Longues boucles primaires) qui ne pouvait pas l'être à partir d'une base précise sur un modèle de structure analogue, ont toutes été implémentées dans un serveur public appelé Robetta. Ce serveur, qui a un constant d'utilisateurs à travers le monde, était l'un des meilleurs serveurs à la ronde entièrement automatisé de prédiction de structure dans les tests CASP5 et CASP6.

 

 

Prédiction des Interactions Protéine-Protéine:

Depuis de nombreuses années nous avons travaillé sur le perfectionnement de la structure protéique, un vrai défi du fait d'un grand nombre de degrés de liberté. Nous avons été intéressés par l'arrimage entre les protéines parce que, en admettant que les deux partenaires ne subissent pas de changement de configuration de façon significative durant l'arimage, l'espace à chercher -les six degrés de liberté de l'axe protéique en plus des degrés de liberté de la chaine latérale- est beaucoup plus petit. Bien qu'important en lui-même, ce problème est une bonne marche à gravir vers un plus épineux problème qu'est le perfectionnement de la structure.

Nous avons développé une nouvelle méthode afin de prévoir les complexes protéiques à partir de coordonnées de composants monomères non liés. Cette méthode utilise une recherche à Monte Carlo en basse résolution et corps rigides, suivie par une optimisation simultanée du déplacement de la chaine principale et des conformations des chaines latérales, avec la procédure de minimisation de Monte Carlo et le modèle physique utilisé dans notre travail de prédiction des structures en haute résolution. L'optimisation simultanée des chaines latérales et des degrés de liberté des corps rigides contraste avec la plupart des autres approches actuelles, modèlisent l'assemblage protéine-protéine comme un problème de corps rigide de forme identique, avec les chaines latérales tenues fixées. Nous avons récemment amélioré la méthode (RosettaDock) en déveploppant l'algotihme qui alloue un échantillonnage efficace aux conformations des chaines latérales hors rotamères durant l'assemblage.

 

Figure 4: Résultats d'assemblage protéine-protéine avec CAPRI (Evaluation judicieuse des interactions prédites). Superposition des structures complexes de protéines prédites (en bleu) et aux rayons X (en rouge et orange). En vert, une chaine latérale pour laquelle la conformation a été correctement prédite pour transformer la formation du complexe. Dans la partie du haut, le complexe entier. Dans la partie du bas, des détails de l'interface. En plus de l'orientation du corps rigide, les conformations de la plupart des chaines latérales sont correctement prédites.

Image: Ora Furman

 

La puissance RosettaDock a été mise en valeur dans le récent assemblage protéine-protéine aveugle de CAPRI, qui fut trouvé en décembre 2004. Dans CAPRI, les prédicteurs ont donné les structures de deux protéines connues pour former un complexe, et parié qu'ils allaient prédirent la structure de ce complexe. Les prédictions de RosettaDock pour les cibles sans conformation de chaine principale significative furent frappantes, comme montré dans la figure 4. Non seulement les orientations du corps rigide des deux partenaires furent proches de la perfection, mais également presque toute l'interface des chaines latérales fut modélisée trés précisémment. Ces modèles corrects ressortent clairement comme d'énergie moindre que tous les autres modèles que nous avons générés, ce qui suggère que la fonction potentielle est suffisemment précise. Ces résultats prometteurs suggèrent que la méthode devrait bientôt être utilisable pour générer des modèles d'importants complexes biologiques à partir des structures des composants isolés, et suggérer plus généralement que la modélisation haute résolution de structures et interactions est de portée infèrieure. Un but clair pour notre travail de prédiction de structure monomérique est d'approcher le niveau de précision de ces modèles.

 

Améliorations du modèle physique:

Notre approche courante pour améliorer les fonctions d'énergie implique une combinaison de calculs de chimie quantique sur des modèles simples de composants, de méthodes issues des la mécanique moléculaire traditionelle, et de l'analyse structurelle de proteines. Nous avons utilisé une telle approche pour développer une liaison hydrogène améliorée. Un résultat particulièrement notable est que la dépendance de l'orientation de la liaison hydrogène en chimie quantique des dimères formamides est remarquablement similaire à celle visible dans les liaisons hydrogène de type chaine latérale-chaine latérale des structures des protéines mais différente de celle des champs de force de la mécanique moléculaire courante, laquelle néglige le caractère covalent de la liaison hydrogène. Le retour d'informations provenant des prédictions et des calculs de conception a insuflé un élan continu et montré la direction pour améliorer la fonction d'énergie ; par exemple, des inadéquations dans notre traitement des intéractions protéine-protéine ont amené au développement récemment d'un modèle des rotamères pour les liaisons hydrogènes en solution aqueuse.

 

Plans pour le futur:

Nos méthodes de prédiction et de représentation sont maintenant parvenues au point où elles peuvent être appliquées à d'importants problèmes biologiques. Après des années de travail en modélisation haute résolution, les prédictions rigoureuses de résolution atomique de structures de complexes dans CAPRI (figure 4), les prédictions de 1,5 Angstrôm de novo dans CASP6 (figure 3), et les accords étroits entre TOP7 (figure 1, à droite) et l'interface de représentation de modèle protéine-protéine avec les structures en cristal par rayon X sont particulièrement encourageants. Ces résultats suggèrent que la modélisantion haute résolution commence à fonctionner.

Dans les quelques années à venir, Nous avons pour but d'améliorer et d'étendre nos méthodes. Nous sommes particulièrement focalisés sur l'amélioration de la précision des prédictions de structures haute résolution (lesquelles seront demandées si les modèles deviennent utilisés de façon générale). Pour accomplir ceci, nous travaillerons à l'amélioration du modèle de sous couche physique et de la méthodologie d'échantillonnage. Nous sommes donc en train de développer les méthodes pour prédire et représenter les spécificités d'interaction ADN-protéines, et d'étendre notre méthodologie de représentation des protéines pour le traçage des enzymes qui catalysent les réactions qui ne le sont pas actuellement par les protéines naturelles.

 

Visitez notre site officiel http://www.bakerlab.org pour plus d'information incluant la liste de nos publications d'activités. (en anglais)


Article réalisé par les membres de la Miniteam Equipe de la Science