Le Forum de l'Alliance Francophone

Nouvelles:

Auteur Sujet: Comment le projet HPF continue de contribuer à la science (WCG)  (Lu 2718 fois)

0 Membres et 1 Invité sur ce sujet

Hors ligne ousermaatre

  • Gentil admin
  • Boinc'eur devant l'éternel
  • *******
  • Messages: 12229
  •   
    • E-mail
How the Human Proteome Folding Project Continues to Contribute to Science
29 juil. 2016    

Récapitulatif
Rich Bonneau, technical lead for the Human Proteome Folding project, recently spoke with us about how the project has contributed to advances in his work, as well as to advances in the understanding of the structure and function of proteins. This update includes a slide presentation and an audio recording of our interview as well as written excerpts.
 

The Human Proteome Folding project (HPF) was the first study to run on World Community Grid. Dr. Rich Bonneau, who led both phases of the project, recently gave us an update on how the data and code from this project continue to help advance knowledge in the field of systems biology, including his current involvement in healthcare-related projects.

You can view slides along with the full audio of the interview below. You can also read about the project's background and excerpts from the interview, starting below the slides.


Background
Everything that goes on in cells and in the body is controlled by the shape of proteins that do or do not let proteins interlock with other proteins. Proteins can perform positive functions, such as helping maintain healthy cells. In some cases, diseases can prevent proteins from performing their necessary functions to maintain healthy cells.

Knowing the shapes of proteins helps researchers understand how the proteins perform their desired functions. For example, the proteins of a virus or bacteria may have particular shapes that enable them to break through the cell membrane, allowing them to infect cells.

For more background on protein functions, you can review this detailed description from Scitable by Nature Education.

The Human Proteome Folding project (HPF) ran in two phases; the goal of the first phase was to determine protein structure in order to predict their functions, and the goal of the second phase was to increase the resolution or accuracy of the predictions for a select subset of human proteins.


Bonneau Lab, 2016
Dr. Rich Bonneau (far right, top row) and members of his lab
Interview Excerpts
Question 1: Can you give us an overview on how the data or tools that were developed during or as a result of the project have influenced your later work?

[The project] gave us the ability to think about every protein in the proteome. It led us in a lot of unexpected directions. One of them is that we need to have a set of proteins that we think don't have functions. There are many thousands of [known] protein functions, such as enzymes that carry out a certain reaction. But if we don't have negative examples--if we don't have examples of what something isn't--then it's harder to classify what something is. Having this comprehensive resource gave us the tools to use structure to identify reliable cases where proteins that didn't have functions could serve as negative training examples. If you can estimate negative examples, then it puts you in a better position to make finely discriminating classifiers for proteins.

Another thing was that the Human Proteome Folding project inspired us to think about was what we could do if we had high-quality structures for many, many proteins. That led us to a recent project, using the code from the HPF project and also some of the data, where we're trying to interpret human genetic variation. We take genetic mutations that are seen in clinics, or from people who were sequenced as part of other studies, and we make structural models of what these mutations look like.



The idea that we could reliably produce models for 70 percent of the proteins that have clinical mutations would not have been thought possible ten years ago. But now...we recently published a paper in the Journal of Nucleic Acids Research describing a tool called VIPUR (Variant Interpretation and Prediction Using Rosetta), which takes mutations and structures and outputs whether or not these mutations will be damaging.

It turns out that most of the mutations in most of the proteins in the genome have little or no effect, but some [mutations] break critical proteins. We want to find these critical mutations and give them to clinicians and biologists so they can sort the damaging mutations from the non-damaging ones. This is one of the rare cases where, as soon as you solve that basic science problem, it's instantly useful because, with mutations, they're often directly clinically relevant since they are often the direct cause of disease.

Question 2: How have the data from the project been shared with and used by other researchers?

We're one of many, many groups that work on this sort of thing. In fact, we're co-sponsoring a conference soon, which is devoted to making sense of mutations in proteins. There will be many people attending with different approaches, and it will be a free exchange of ideas. Our approach, which uses structure prediction, is one of five or six approaches. Our hope is that we can put all these different approaches together.

A larger-scale approach is that often we know that diseases have some heritability, but we don't know exactly what genes are involved. We think that, by automatically adding structural approaches to existing studies, we can separate mutations that are unfolding the proteins. By sorting out these mutations, we can contribute to decoding in existing large-scale studies. For example, we're collaborating on a project to understand mutations in people with and without autism.

The HPF data have been shared through a few different websites since the beginning of the project. One of the key things about the project was that, before it finished, we were getting feedback that it was useful to other scientists. We had many citations from people using our function predictions. Collectively, I think the set of papers [about the HPF data] has around 40 or 50 citations.

The thing we did with the VIPUR code that was different was that we aimed it at clinical labels of proteins--null, neutral, pathogenic, benign and so on. That work is so brand new that we don't know the impact yet. We've had a lot of people interested in the code, we've helped a lot of people set up the code, and we've also distributed mutation predictions based on our work to others.

Question 3: You have an additional position now. Can you tell us a little bit about that?

When I first started working with IBM [on the HPF project] I was a professor at NYU (New York University). Since then, I've become a group leader at the Simons Foundation Center for Computational Biology. This a new, not-for-profit research institute funded by the Simons Foundation. Luckily for me, it's in New York City, so I was able to keep my affiliation with NYU. So my time is split somewhat evenly between the two places.

This new institution is nicely interdisciplinary. There are people here studying fields such as applied math, computer science, molecular biology, and computational neuroscience. The institute is only a year and a half old, so it's the very exciting beginning phase.



Question 4: What are some areas in your field that might benefit from using World Community Grid's computational power?

[Protein] structure will remain a tricky problem that could use World Community Grid's power. There have been a lot of advancements in physics instrumentation that are giving us better structural biology data. The bottom line is that there's a lot more information out there from new experimental and computational techniques that we could use to design experiments.

New technology in the laboratory drives the need for new computation, which gives you answers which only open up new questions, and drive even more amazing technologies. Right now, in structural biology, I think there are cool computations that would be World Community Grid-relevant in the areas of genomics.

When you put all of these new genomic technologies together, the need for putting [the data] together in a model starts to get a little beyond what a small computer can do. I think the need for World Community Grid is going to be there for a while.


Hors ligne modesti

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 19058
  •   
    • Brocantes en Bourbonnais
    • E-mail
Si ça peut attendre quelques jours, je veux bien m'occuper de cette traduction.


Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip - In memoriam Cocagne


Hors ligne fzs600

  • Méchant modo
  • Boinc'eur devant l'éternel
  • ******
  • Messages: 7779
  •   
Si ça peut attendre quelques jours, je veux bien m'occuper de cette traduction.
Mais oui prend ton temps on est pas pressé c'est les vacances.  :hamac:


Utilisateur GNU-LINUX. fzs600@hub.g3l.org


Hors ligne ousermaatre

  • Gentil admin
  • Boinc'eur devant l'éternel
  • *******
  • Messages: 12229
  •   
    • E-mail

Hors ligne modesti

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 19058
  •   
    • Brocantes en Bourbonnais
    • E-mail
Désolée, c'était plus long que prévu. Voici la traduction. Première relecture faite "en interne" par Cocagne

*****
Comment le projet Human Proteome Folding continue à contribuer à la science
29 juil. 2016 

Récapitulatif
Rich Bonneau, responsable technique du projet Human Proteome Folding, nous a récemment expliqué comment le projet a contribué à des avancées dans son travail, ainsi qu'à des avancées dans la compréhension de la structure et de la fonction des protéines. Cette mise à jour inclut une présentation de diapositives et un enregistrement audio de notre interview ainsi que des extraits écrits.


Le projet Human Proteome Folding (HPF) était la première étude mise en ligne sur le World Community Grid. Le Dr Rich Bonneau, qui a dirigé les deux phases du projet, nous a récemment expliqué comment les données et le code de ce projet continuent à aider à faire avancer les connaissances dans le domaine de la biologie des systèmes, y compris son implication actuelle dans des projets liés aux soins médicaux.

Vous pouvez visionner les diapositives avec l'intégralité de la bande audio de l'interview ci-dessous [en anglais]. Vous pouvez aussi lire des informations sur le contexte du projet et des extraits de l'interview en-dessous des diapositives.

[vidéo]

Contexte
Tout ce qui se passe dans les cellules et dans le corps est contrôlé par la forme des protéines qui permet à certaines protéines de s'emboîter avec d'autres ou pas. Les protéines peuvent avoir des fonctions positives, comme aider à maintenir les cellules en bonne santé. Dans certains cas, des maladies peuvent empêcher les protéines d'exécuter leurs fonctions nécessaires pour de maintenir les cellules en bonne santé.

Connaître la forme des protéines aide les chercheurs à comprendre comment ces protéines réalisent les fonctions souhaitées. Les protéines d'un virus ou d'une bactérie, par exemple, peuvent avoir des formes particulières leur permettant de s'introduire à travers la membrane cellulaire et donc d'infecter les cellules.

Pour davantage de contexte sur les fonctions des protéines, vous pouvez lire cette description détaillée de Scitable par Nature Education.

Le projet Human Proteome Folding (HPF) s'est déroulé en deux phases. L'objectif de la première phase était de déterminer la structure des protéines afin de prédire leurs fonctions. L'objectif de la seconde phase était d'augmenter la résolution ou la précision des prédictions pour un ensemble de protéines humaines sélectionnées.


Bonneau Lab, 2016
Dr Rich Bonneau (debout, tout à fait à droite) et des membres de son laboratoire

Extraits de l'interview
Question 1: Pouvez-vous nous donner un aperçu sur comment les données ou les outils qui ont été développés pendant ou à l'issue du projet ont influencé votre travail suivant?

[Le projet] nous a donné la possibilité de penser à chaque protéine du protéome. Il nous a mené dans un grand nombre de directions inattendues. L'une d'entre elles est que nous avons besoin d'avoir un jeu de protéines dont nous pensons qu'elles n'ont aucune fonction. Il existe des milliers de fonctions [connues] des protéines, comme pour les enzymes qui produisent une certaine réaction. Mais si nous n'avons pas d'exemples négatifs - si nous n'avons pas d'exemples de ce que quelque chose n'est pas - alors il est plus difficile de classifier ce que quelque chose est. Le fait d'avoir cette ressource détaillée nous a donné les outils pour utiliser la structure afin d'identifier des cas fiables où des protéines qui n'avaient pas de fonction pouvaient servir d'exemples d'entraînement négatifs. Si vous pouvez évaluer des exemples négatifs, alors vous êtes dans une meilleure position pour créer des classifiants à discrimination fine pour les protéines.
Par ailleurs, le projet Human Proteome Folding nous a inspiré pour penser à ce que nous pourrions faire si nous avions des structures de haute qualité pour un grand nombre de protéines. Cela nous a conduits à un projet récent, utilisant le code du projet HPF ainsi que quelques-unes de ses données, dans lequel nous essayons d'interpréter des variations génétiques humaines. Nous prenons des mutations génétiques vues dans le cadre médical ou de personnes dont le génome a été séquencé dans le cadre d'autres études, et nous créons des modèles structurels de l'apparence de ces mutations.



L'idée que nous pourrions produire des modèles fiables pour 70% des protéines ayant des mutations cliniques aurait été impensable encore dix ans en arrière. Mais maintenant... Nous avons récemment publié un article dans le Journal sur la Recherche sur les Acides Nucléiques (Journal of Nucleic Acids Research) décrivant un outil appelé VIPUR (Variant Interpretation and Prediction Using Rosetta - interprétation et prédiction de variantes en utilisant Rosetta), qui prend des mutations et des structures et dit si ces mutations auront des effets dommageables ou pas.

Il en ressort que la plupart des mutations dans la plupart des protéines du génomes n'ont que peu d'effets, voire pas d'effet du tout, mais quelques [mutations] cassent des protéines essentielles. Nous voulons trouver ces mutations critiques et les donner à des cliniciens et des biologistes pour qu'ils puissent séparer les mutations délétères des non-délétères. C'est l'un des rares cas où, dès que vous résolvez le problème scientifique de base, l'application est immédiate car les mutations sont souvent d'une importance clinique directe vu qu'elles sont souvent la cause directe d'une maladie.

Question 2: Comment les données du projet ont-elles été partagées et utilisées avec d'autres chercheurs?

Nous sommes un des très nombreux groupes qui travaillent sur ce genre de sujet. En fait, nous allons bientôt co-sponsoriser une conférence dédiée à la compréhension des mutations dans les protéines. Beaucoup de personnes viendront avec différentes approches et ce sera un libre échange d'idées. Notre approche, qui utilise la prédiction de structure, en est une parmi cinq ou six. Nous espérons pouvoir mettre toutes ces différentes approches ensemble.

Une approche à plus grande échelle est que nous savons souvent que des maladies ont une part d'hérédité, mais nous ne connaissons pas exactement les gênes impliqués. Nous pensons qu'en ajoutant automatiquement des approches structurelles à des études existantes, nous pourrons séparer les mutations qui déplient les protéines. En mettant de l'ordre dans ces mutations, nous pouvons contribuer au décodage d'études à grande échelle existantes. Nous collaborons, par exemple, à un projet cherchant à comprendre les mutations dans des personnes souffrant d'autisme et d'autres n'en souffrant pas.

Les données du projet HPF ont été partagées à travers différents sites internet depuis le début du projet. Un des points clés de ce projet était que nous avions reçu des retours disant qu'il était utile à d'autres scientifiques, avant qu'il ne soit terminé. Nous avons souvent été cités par des personnes qui utilisaient nos fonctions de prédiction. Collectivement, je pense que l'ensemble des articles [au sujet des données de HPF] comporte environ 40 ou 50 citations.

Ce que nous avons fait de différent avec le code VIPUR, c'est que nous l'avons ciblé sur des étiquettes cliniques de protéines - zéro, neutre, pathogène, bénin, etc. Ce travail est tellement novateur que nous n'en connaissons pas encore l'impact. Beaucoup de personnes étaient intéressées par le code, nous en avons aidé beaucoup à mettre en place le code et nous avons distribué des prédictions de mutations sur la base de notre travail à d'autres encore.

Question 3: Vous avez désormais un poste supplémentaire. Pouvez-vous nous en dire un peu plus?

Quand j'ai commencé à travailler avec IBM [sur le projet HPF], j'étais professeur à l'université de New York (NYU). Depuis, je suis devenu responsable de groupe au Centre de Bio-informatique de la Fondation Simons (Simons Foundation Center for Computational Biology). Il s'agit d'un nouvel institut de recherche à but non lucratif, financé par la Fondation Simons. Heureusement pour moi, il se trouve à New York City, ce qui m'a permis de garder mes liens avec NYU. Mon temps est partagé à peu près à parts égales entre les deux postes.

Cette nouvelle institution est agréablement interdisciplinaire. Il y a des personnes qui étudient les mathématiques appliquées, l'informatique, la biologie moléculaire et la neuroscience informatique. L'institut n'a qu'un an et demi, nous en sommes donc à la très excitante phase de démarrage.



Question 4: Quels secteurs de votre domaine pourraient bénéficier de la puissance de calcul du World Community Grid?

La structure [des protéines] restera un problème délicat qui pourrait utiliser la puissance du World Community Grid. Il y a eu de nombreuses avancées en instrumentation physique qui nous donnent de meilleures données structurelles biologiques. Le fond du problème est qu'il y a beaucoup plus d'informations disponibles venant de nouvelles techniques expérimentales et informatiques que nous ne pouvons en utiliser pour créer des expérimentations.

La nouvelles technologie au laboratoire entraîne le besoin de nouveaux calculs, ce qui vous donne des réponses qui ne font que soulever de nouvelles questions et entraînent des technologies encore plus étonnantes. A l'heure actuelle, en biologie structurelle, je pense qu'il y a des calculs géniaux dans le domaine génomique qui pourraient être intégrés au World Community Grid.

Si vous rassemblez toutes ces nouvelles technologies génomiques, le besoin d'assembler les données dans un modèle commence à dépasser un peu les capacités d'un petit ordinateur. Je pense que le World Community Grid restera nécessaire encore longtemps.


Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip - In memoriam Cocagne


Hors ligne ousermaatre

  • Gentil admin
  • Boinc'eur devant l'éternel
  • *******
  • Messages: 12229
  •   
    • E-mail

Hors ligne zelandonii

  • Boinc'eur devant l'éternel
  • *****
  • Messages: 5123
  •   
D'accord avec Ouser. :jap:





"Le monde est trop dangereux pour qu'on y vive, non pas à cause des gens qui font le mal, mais à cause de ceux qui les laissent faire sans réagir."  Albert Einstein.