Par: Wim Degrave, Ph.D.Laboratoire de Génomique fonctionnelle et bio-informatique - Institut Oswaldo Cruz - Fiocruz
15 déc. 2016RécapitulatifLe rôle du World Community Grid dans le projet Uncovering Mysteries Genome a pris fin, mais le travail de l'équipe de recherche continue d'analyser les résultats des calculs et se prépare à appliquer les données au médical, à l'agriculture ou à d'autres application réelles.
Un plongeur recueille des échantillons du fond marin (seawood?) au large des côtes de l'Australie. UGM a analysé des séquences de protéines à partir d'une grande variété de formes de vie dans de nombreux milieux tels que l'océan.
HistoriqueLe projet UGM a commencé sur le World Community Grid en Novembre 2014, avec le but d'analyser les séquences de protéines pour aider à comprendre comment fonctionnent les organismes et interagissent les uns les autres et l'environnement. Le projet a commencé avec 120 millions de séquences de protéines issues de près de 150.000 organismes. Ces séquences de protéines et ces organismes représentent une grande variété de formes de vie connues ou inconnues dans notre biosphère. Ils sont extraits d'organismes dans des échantillons prélevés dans une large gamme d'environnements, aquatiques et terrestres, ainsi que sur et à l'intérieur des plantes et des animaux. En outre, 70 millions de séquences, dérivées de l'analyse prospective de l'information génétique des écosystèmes microbiens marins de l'Australie ont été ajoutés, avec l'objectif d'ajouter à l'identification des fonctionnalités possibles de ces séquences. En Juillet 2015, nous avons ajouté un nouveau lot de 20 millions de séquences de protéines.
Merci aux contributions enthousiastes de plus de 76.000 bénévoles du World Community Grid, toutes ces séquences de protéines ont été analysées en 24 mois environ.
UGM a été un projet difficile et ambitieux. L'analyse de toutes les enzymes prévues et d'autres protéines codées dans les informations génétiques connues jusqu'à présent dans tous les organismes et les formes de vie de notre biosphère est une tâche importante. En raison du développement des nouvelles technologies de séquençage pour la détermination rapide et peu couteuse du code génétique, des informations basiques supplémentaires seront disponibles à un rythme accéléré, ce qui rendra de plus en plus difficile d'effectuer une telle analyse comparative complète dans l'avenir.
Notre tâche ardue d'effectuer près de 100 quadrillions comparaisons est maintenant terminée. Les données résultantes font plus de 30 To d'informations compressées (plus de 150 To non compressées), même si chaque comparaison n'a abouti qu'à une seule ligne de nombres pour les probabilités les plus hautes entre les séquences de protéines.
État des lieux et perspectivesAlors, quelle est la prochaine étape ? L'équipe de recherche au
Fiocruz a passé la dernière année à concevoir et tester de nouveaux algorithmes pour transformer la sortie des comparaisons avec des distances entre les génomes des organismes analysés. La littérature scientifique cite de nombreuses façons de le faire, en fonction du but de l'analyse et les points de vue sur la biologie évolutive.
Les résultats de UGM peuvent être résumés comme suit:
1.
Des informations plus complètes et précises sont maintenant disponible sur la structure et la fonction des protéines codées par les organismes dans notre biosphère. De plus en plus de protéines sont étudiées et expérimentées chaque jour dans des milliers de laboratoires dans le monde, et en utilisant les résultats de la comparaison effectuée par le projet, des parallèles fonctionnels peuvent être tirées pour les protéines qui montrent une similarité structurelle entre les organismes. Ceci est particulièrement utile lorsque les fragments de protéines prédites sont comparées à des organismes non caractérisés, par exemple dans les études environnementales et écologiques, tels que celles publiées par le laboratoire du co-investigateur
Dr Torsten Thomas, et son équipe du Centre de Bio-Innovation Marine & l'Ecole des Sciences Biologiques, de la Terre et des Sciences de l'Environnement à l'Université de New South Wales, Sydney, Australie. La base de données résultante avec ces annotations fonctionnelles sera rendu publique à la prochaine version de notre base de données de comparaison de protéines,
ProteinWorldDB, dans les prochains mois.
2.
Par comparaison, de nouvelles fonctions des protéines sont découvertes et peuvent avoir des applications médicales, agricoles, technologiques ou industrielles. Ceux-ci peuvent être de nouveaux produits biopharmaceutiques, bioinsecticides, de la biodégradation de déchets, ou des enzymes pour la production de produits chimiques, mais surtout lorsqu'ils font partie de nouvelles voies biochimiques dans les cellules, cela aide les laboratoires à développer une nouvelle chimie verte, ou la production d'énergie, ou la biosynthèse ou la transformation des nouveaux médicaments . Cela ajoute également à la connaissance croissante de la biotechnologie et de la biologie synthétique.
3.
Le groupe de la Fiocruz a développé de nouvelles façons de comparer les génomes de différents organismes. Traditionnellement, ces analyses considèrent ce qui est conservé entre les génomes, ce qui entraîne des calculs de distance qui sont utilisés pour les études
phylogénétiques et l'estimation des relations évolutives entre les organismes. Cependant, nous pensons que ce n'est qu'une partie de l'image, et l'équipe Fiocruz a conçu un nouvel algorithme qui prend également en compte les différences. Ceci a été couplé à une nouvelle méthode de visualisation pour de telles comparaisons, résultant en une manière nettement plus rapide d'ajouter de nouvelles données à l'image. Nous espérons que cette méthode nous permettra de suivre les données des nouveaux organismes qui sont disponibles, en ajoutant des résultats à la base de données croissante de
ProteinWorld DB.
Merci à tous les bénévoles de World Community Grid qui ont soutenu ce projet et nous prévoyons de rester en contact avec d'autres news au sujet de nos recherches en cours.
Une relecture, ainsi qu'une aide sur certains termes ou tournures, est la bienvenue ! 