Auteur Sujet: Big Data and Big Plans: Next Steps for Uncovering Genome Mysteries  (Lu 622 fois)

0 Membres et 1 Invité sur ce sujet

[AF] fansyl

  • Messages: 1912
  • Boinc'eur devant l'éternel
  • *****
  •   
La phase calcul du projet vient de se terminer, un article pour envisager la suite:

Citer
By: Wim Degrave, Ph.D.
Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz - Fiocruz
15 déc. 2016     

Récapitulatif
World Community Grid’s role in the Uncovering Genome Mysteries project has ended, but the research team’s work continues as they analyze the results of the calculations and prepare to apply the data to medical, agricultural, and other real-world applications.

A diver collects samples from seawood off the coast of Australia. Uncovering Genome Mysteries analyzed protein sequences from a wide variety of life forms in many environments such as the ocean.

Background

The Uncovering Genome Mysteries project began on World Community Grid in November 2014, with the aim of analyzing protein sequences to help understand how organisms function and interact with each other and the environment. The project began with 120 million predicted protein sequences from close to 150,000 organisms. These protein sequences and organisms represent a wide variety of known or uncharacterised life forms in our biosphere. They came from organisms in samples taken from a range of environments, including water and soil, as well as on and inside plants and animals. Additionally, 70 million sequences, derived from prospective analysis of genetic information from microbial marine ecosystems from Australia were added, with the objective to add to the identification of possible functionalities of these sequences. In July 2015, we added yet another 20 million newly predicted sequences of proteins.

Thanks to the enthusiastic contributions of more than 76,000 World Community Grid volunteers, all of these protein sequences were analyzed in approximately 24 months.

Uncovering Genome Mysteries has been a challenging and ambitious project. Analyzing all the predicted enzymes and other proteins encoded in the genetic information known thus far from of all the organisms and life forms from our biosphere is a large task. Due to the development of new sequencing technologies for fast and cheap determination of genetic code, additional basic information will become available at an accelerating rate, making it increasingly difficult to perform such a complete comparative analysis in the future.

Our daunting task of performing close to 100 quadrillion comparisons has now been completed. The resulting data is more than 30 terabytes of compressed information (more than 150 terabytes uncompressed), even though each comparison only resulted in a single line of numbers for only the very highest probability similarities between protein sequences.

Results to Date and Plans for the Future

So, what is next? The research team at Fiocruz has spent the last year designing and testing new algorithms to transform the output of the comparisons with distance calculations between the genomes of the organisms included. Scientific literature cites many different ways to do this, depending on the purpose of the analysis and the views on evolutionary biology.

The results of the Uncovering Genome Mysteries can be summarized as follows:

    More complete and precise information is now available on the structure and function of proteins encoded by living organisms in our biosphere. More proteins are being studied and experimented with each day in the thousands of laboratories around the world, and by using results from the comparison performed through the project, functional parallels can be drawn for proteins that show structural similarity between organisms. This is particularly valuable when predicted protein fragments are compared from uncharacterised organisms, for example in environmental and ecology studies, such as those originated from the laboratory of co-investigator Dr. Torsten Thomas, and his team from the Centre for Marine Bio-Innovation & the School of Biological, Earth and Environmental Sciences at the University of New South Wales, Sydney, Australia. The resulting database with these functional annotations will be made publicly available as the next version of our protein comparison database, ProteinWorldDB, in the coming months.

    Through comparison, new protein functions are discovered that can have medical, agricultural, technological or industrial applications. These can be as new biopharmaceuticals, bioinsecticides, biodegradation of waste, or enzymes for production of chemicals, but especially when part of new biochemical pathways in cells, that help laboratories to develop new green chemistry or energy production, or biosynthesis and transformation of new drugs. This also adds to the growing knowledge of biotechnology and synthetic biology.

    The group at Fiocruz has developed new ways to compare genomes from different organisms. Traditionally, such analyses consider what is conserved between genomes, resulting in distance calculations that are used for phylogenetic studies and the estimation of evolutionary relationships between organisms. However, we feel that this is only part of the picture, and the Fiocruz team designed a new algorithm that also takes differences into account. This was coupled to a new visualization method for such comparisons, resulting in a markedly faster way to add new data to the picture. We hope that this method will enable us to keep track of data from new organisms that becomes available, adding results to the growing ProteinWorld DB database.

Thank you to all World Community Grid volunteers who supported this project, and we plan to keep in touch as we have further news about our ongoing research.

Je me colle à la traduction ce soir.
Je crunche dans le silence et c'est ma joie !
Ryzen 1700X/16Go/GTX970 (sous WC) - i7-3770T/16Go/HD4000 - Ryzen 1400/8Go/GTX1050 - Q9550/4Go/GT1030 - 3xAndroidBox S912


[AF] fansyl

  • Messages: 1912
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : Big Data and Big Plans: Next Steps for Uncovering Genome Mysteries
« Réponse #1 le: 18 décembre 2016 à 19:55 »
Par: Wim Degrave, Ph.D.
Laboratoire de Génomique fonctionnelle et bio-informatique - Institut Oswaldo Cruz - Fiocruz
15 déc. 2016

Récapitulatif
Le rôle du World Community Grid dans le projet Uncovering Mysteries Genome a pris fin, mais le travail de l'équipe de recherche continue d'analyser les résultats des calculs et se prépare à appliquer les données au médical, à l'agriculture ou à d'autres application réelles.

Un plongeur recueille des échantillons du fond marin (seawood?) au large des côtes de l'Australie. UGM a analysé des séquences de protéines à partir d'une grande variété de formes de vie dans de nombreux milieux tels que l'océan.

Historique

Le projet UGM a commencé sur le World Community Grid en Novembre 2014, avec le but d'analyser les séquences de protéines pour aider à comprendre comment fonctionnent les organismes et interagissent les uns les autres et l'environnement. Le projet a commencé avec 120 millions de séquences de protéines issues de près de 150.000 organismes. Ces séquences de protéines et ces organismes représentent une grande variété de formes de vie connues ou inconnues dans notre biosphère. Ils sont extraits d'organismes dans des échantillons prélevés dans une large gamme d'environnements, aquatiques et terrestres, ainsi que sur et à l'intérieur des plantes et des animaux. En outre, 70 millions de séquences, dérivées de l'analyse prospective de l'information génétique des écosystèmes microbiens marins de l'Australie ont été ajoutés, avec l'objectif d'ajouter à l'identification des fonctionnalités possibles de ces séquences. En Juillet 2015, nous avons ajouté un nouveau lot de 20 millions de séquences de protéines.

Merci aux contributions enthousiastes de plus de 76.000 bénévoles du World Community Grid, toutes ces séquences de protéines ont été analysées en 24 mois environ.

UGM a été un projet difficile et ambitieux. L'analyse de toutes les enzymes prévues et d'autres protéines codées dans les informations génétiques connues jusqu'à présent dans tous les organismes et les formes de vie de notre biosphère est une tâche importante. En raison du développement des nouvelles technologies de séquençage pour la détermination rapide et peu couteuse du code génétique, des informations basiques supplémentaires seront disponibles à un rythme accéléré, ce qui rendra de plus en plus difficile d'effectuer une telle analyse comparative complète dans l'avenir.

Notre tâche ardue d'effectuer près de 100 quadrillions comparaisons est maintenant terminée. Les données résultantes font plus de 30 To d'informations compressées (plus de 150 To non compressées), même si chaque comparaison n'a abouti qu'à une seule ligne de nombres pour les probabilités les plus hautes entre les séquences de protéines.

État des lieux et perspectives

Alors, quelle est la prochaine étape ? L'équipe de recherche au Fiocruz a passé la dernière année à concevoir et tester de nouveaux algorithmes pour transformer la sortie des comparaisons avec des distances entre les génomes des organismes analysés. La littérature scientifique cite de nombreuses façons de le faire, en fonction du but de l'analyse et les points de vue sur la biologie évolutive.

Les résultats de UGM peuvent être résumés comme suit:

1. Des informations plus complètes et précises sont maintenant disponible sur la structure et la fonction des protéines codées par les organismes dans notre biosphère. De plus en plus de protéines sont étudiées et expérimentées chaque jour dans des milliers de laboratoires dans le monde, et en utilisant les résultats de la comparaison effectuée par le projet, des parallèles fonctionnels peuvent être tirées pour les protéines qui montrent une similarité structurelle entre les organismes. Ceci est particulièrement utile lorsque les fragments de protéines prédites sont comparées à des organismes non caractérisés, par exemple dans les études environnementales et écologiques, tels que celles publiées par le laboratoire du co-investigateur Dr Torsten Thomas, et son équipe du Centre de Bio-Innovation Marine  & l'Ecole des Sciences Biologiques, de la Terre et des Sciences de l'Environnement à l'Université de New South Wales, Sydney, Australie. La base de données résultante avec ces annotations fonctionnelles sera rendu publique à la prochaine version de notre base de données de comparaison de protéines, ProteinWorldDB, dans les prochains mois.

2. Par comparaison, de nouvelles fonctions des protéines sont découvertes et peuvent  avoir des applications médicales, agricoles, technologiques ou industrielles. Ceux-ci peuvent être de nouveaux produits biopharmaceutiques, bioinsecticides, de la biodégradation de déchets, ou des enzymes pour la production de produits chimiques, mais surtout lorsqu'ils font partie de nouvelles voies biochimiques dans les cellules, cela aide les laboratoires à développer une nouvelle chimie verte, ou la production d'énergie, ou la biosynthèse ou la transformation des nouveaux médicaments . Cela ajoute également à la connaissance croissante de la biotechnologie et de la biologie synthétique.

3. Le groupe de la Fiocruz a développé de nouvelles façons de comparer les génomes de différents organismes. Traditionnellement, ces analyses considèrent ce qui est conservé entre les génomes, ce qui entraîne des calculs de distance qui sont utilisés pour les études phylogénétiques et l'estimation des relations évolutives entre les organismes. Cependant, nous pensons que ce n'est qu'une partie de l'image, et l'équipe Fiocruz a conçu un nouvel algorithme qui prend également en compte les différences. Ceci a été couplé à une nouvelle méthode de visualisation pour de telles comparaisons, résultant en une manière nettement plus rapide d'ajouter de nouvelles données à l'image. Nous espérons que cette méthode nous permettra de suivre les données des nouveaux organismes qui sont disponibles, en ajoutant des résultats à la base de données croissante de ProteinWorld DB.

Merci à tous les bénévoles de World Community Grid qui ont soutenu ce projet et nous prévoyons de rester en contact avec d'autres news au sujet de nos recherches en cours.



Une relecture, ainsi qu'une aide sur certains termes ou tournures, est la bienvenue !
 :hello:
Je crunche dans le silence et c'est ma joie !
Ryzen 1700X/16Go/GTX970 (sous WC) - i7-3770T/16Go/HD4000 - Ryzen 1400/8Go/GTX1050 - Q9550/4Go/GT1030 - 3xAndroidBox S912


JeromeC

  • CàA
  • Messages: 22943
  • Boinc'eur devant l'éternel
  • *****
  •   
Parce que c'était lui, parce que c'était moi.

[AF] fansyl

  • Messages: 1912
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : Big Data and Big Plans: Next Steps for Uncovering Genome Mysteries
« Réponse #3 le: 28 janvier 2017 à 11:08 »
Publié sur le topic AF correspondant, à déplacer.
 :hello:
« Modifié: 07 février 2017 à 18:05 par [AF] fansyl »
Je crunche dans le silence et c'est ma joie !
Ryzen 1700X/16Go/GTX970 (sous WC) - i7-3770T/16Go/HD4000 - Ryzen 1400/8Go/GTX1050 - Q9550/4Go/GT1030 - 3xAndroidBox S912