Boinc et les projets distribués > Annonces sur Boinc et les projets

[QuChemPedIA] le topic de préparation

(1/129) > >>

damotbe:
Bonjour à tous.  :hello:

Infos utiles.
Pour les plateformes Mac et Windows il est nécessaire d'installer Virtualbox : https://www.virtualbox.org/


Statut : actif
URL du projet : https://quchempedia.univ-angers.fr/athome/
Application disponible : https://quchempedia.univ-angers.fr/athome/apps.php
État du serveur : https://quchempedia.univ-angers.fr/athome/server_status.php
L'alliance francophone : https://quchempedia.univ-angers.fr/athome/team_display.php?teamid=4
Classement mondial de L'af : https://www.boincstats.com/stats/185/team/list/

Je ne sais pas trop où mettre ce sujet. Je vais vous parler ici du projet que j'essaye de mettre en place à l'Université d'Angers : QuChemPedIA et de sa partie Boinc.

TL;DR : Clean Energy Project + Intelligence Artificielle + plateforme ouverte

QuChemPedIA : Quantum Chemistry encycloPEDia + Intelligence Artificielle


--- Citer ---Présentation : Ce projet s’inscrit dans les domaines des sciences des données et de l’intelligence artificielle. L’objectif est de révolutionner le domaine de la chimie quantique et informatique moléculaire. La chimie moléculaire se définit comme l’étude d’entités discrètes (molécules) et correspond à la communauté la plus large de chimistes. Des centaines de millions de molécules sont connues, contenant généralement moins d’une centaine d’atomes et moins d’un millier d’électrons. Les propriétés chimiques de ces molécules dépendent de la position des électrons qui peut être calculée de manière approchée par des méthodes issues de la mécanique quantique. Les différents paramètres de calcul définissent la qualité de la méthode et son coût en temps (de quelques heures à quelques milliers d’heures par molécule). Avec la démocratisation de la puissance de calcul, la chimie informatique est devenue une partie essentielle de la recherche en chimie.
Aujourd’hui, il est impossible pour un humain de prendre en compte les résultats, même restreints aux données les plus importantes, pour les millions de molécules connues. Pour les chimistes, l’ambition de ce projet est de changer radicalement d’approche en utilisant des méthodes d’intelligence artificielle et de fouille de données afin d’explorer plus efficacement l’immense combinatoire de l’espace moléculaire.
Le projet se situe donc à la frontière entre l’apprentissage artificiel quand il s’agit de prédire les propriétés d’une molécule et l’optimisation combinatoire quand nous cherchons à proposer des nouvelles molécules maximisant un ou plusieurs objectifs. La méthodologie envisagée, qui allie apprentissage profond (deep learning) et programmation par contraintes pour générer des molécules, est inédite à notre connaissance et offre des opportunités remarquables. Associer une fonction de coût tout en prévoyant les voies de synthèse permet par exemple de proposer des molécules moins coûteuses pour l’environnement, base de la chimie verte de demain. La recherche de nouveaux matériaux photovoltaïques est d’ailleurs la première des applications que nous envisageons.

--- Fin de citation ---

Dans un premier temps, le projet Boinc permettra d'alimenter les procédures d'intelligence artificielle en données. Les volontaires calculeront des molécules pour lesquelles il n'existe pas de résultats publiques en chimie quantique. Il est très probable que dans un second temps, les volontaires soient sollicités pour réaliser les calculs nécessaires aux procédures d'exploration de l'espace moléculaire (intelligence artificielle).

Avancement du projet :

* OK : Serveur physique pour héberger les services Quchempedia dont le projet Boinc

* Bi-Xeon E5-2640 (10C/20T) + 128Go RAM + 64 To HDD
* OK : Choix d'un code libre pour les calculs en chimie quantique :

* NWChem : www.nwchem-sw.org
* OK : Tests des cas d'utilisation du code de calcul
* En cours : Compilation statique et portable du code de calcul : www.nwchem-sw.org/index.php/Compiling_NWChem

* Cherche solutions et volontaires pour Windows (merci Sébastien https://forum.boinc-af.org/index.php/topic,7838.msg473501.html#msg473501)
* Cherche solutions et volontaires pour compilation MAC (application sans VM)
* Cherche solutions et volontaires pour Android (pas envisageable)
* OK : Cherche solutions et volontaires pour compilation portable pour Linux (ne pas dépendre des packages)
* OK : mise en place de VM pour les applications
* OK : mise en place du software pour le serveur Boinc:

* OK : Installation de Proxmox
* OK : configuration du firewall et des règles réseaux, tests VM et tests CT
* OK : Installation de Nginx Apache pour le reverse proxy et cache HTTP
* OK : certificats HTTPS
* OK : création de la VM (QEMU-KVM) pour le boinc-serveur
* OK : mise en place des applications et tests
* OK : gestion des scripts, campagnes de calcul, badges, etc.
* TODO: gestion plus fine des erreurs et crédits après des calculs (très) longs

damotbe:
13 Novembre 2019:

Notre premier article scientifique en lien avec le projet est disponible en Open Access et les données en Open Data.
"Dataset’s chemical diversity limits the generalizability of machine learning predictions"
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-019-0391-2?fbclid=IwAR0LtM098-vkv0rJnoSV8Yo5ZbuFu4HXpZKsn3ekTTtA4rM0Sb5_HMSSSwI

Avec une traduction du message de Thomas Cauchy qui explique l'article et les recherches à venir

--- Citer ---Bonjour,

Je suis le chimiste de ce projet. La publication mentionnée par Benoit Da Mota a été écrite lors du lancement du projet boinc. Mais je peux extraire quelques phrases de cet article pour montrer ce que nous avons en tête.. :

"Résumé : L'ensemble de données QM9 est devenu la référence en matière de prédiction par Apprentissage Automatique (ML) pour de nombreuses propriétés chimiques. QM9 est basé sur la GDB, qui est une exploration combinatoire de l'espace chimique. Les prédictions à l'aide du ML ont récemment été publiées avec une précision comparable à celle des calculs de la théorie fonctionnelle de la densité. De tels modèles nécessitent d'être reproduits et généralisés sur des données réelles. PC9, un nouvel ensemble de données équivalents à QM9 (seulement H, C, N, O et F et jusqu'à 9 atomes "lourds") issu du projet PubChemQC est présenté dans cet article. Une étude statistique des distances de liaison et des fonctions chimiques montre que ce nouvel ensemble de données couvre une plus grande diversité chimique. Une régression Kernel Ridge, une régression Elastic Net et le modèle de réseau neuronal fourni par SchNet ont été utilisés sur les deux ensembles de données. La précision globale de la prédiction de l'énergie est plus élevée pour le sous-ensemble QM9. Cependant, un modèle entraîné sur PC9 montre une plus grande capacité à prédire les énergies des autres ensembles de données."

Le jeu de données QM9 contient environ 130 000 petites molécules, alors que PC9 en contient 119 000 (mais a été extrait d'un autre type de calculs). Le problème est que les résultats complets de la QM9 ne sont pas accessibles au public. Ils ont extrait certains résultats de calculs de mécanique quantique coûteux et ont détruit le fichier de données. Nous ne sommes pas satisfaits de PC9 qui est une simple démonstration qu'une plus grande diversité est nécessaire.

Pour le moment, le projet Boinc vise à recalculer les molécules intéressantes de QM9 et PC9 avec le même niveau de calcul cette fois. Tous les résultats seront disponibles sur la base de documents QuChemPedia https://quchempedia.univ-angers.fr lorsque cette plate-forme sera un peu plus robuste (début 2020), à l'image de notre outil de contrôle qualité tel que développé par mon collègue.

Nous ne sommes pas encore entièrement satisfaits de NWChem. Avec le même projet Boinc, Benoit Da Mota et moi-même, utilisons Gaussian (propriétaire) qui est très efficace. Mais Nwchem est open source....
Nous avons calculé environ 130 k sur 200 k grâce à votre aide !
Pour décembre, nous espérons proposer à la communauté de calculer de nouvelles molécules qui n'existent peut-être même pas et ne sont pas stables afin d'aider l'outil d'apprentissage machine à mieux généraliser. Ces nouvelles molécules seront générées par une procédure d'apprentissage automatique (IA).

Si vous avez des questions....
Amicalement
Thomas

--- Fin de citation ---

damotbe:
réservé

JeromeC:
:bounce:

[AF] fansyl:
 :plusun:

Navigation

[0] Index des messages

[#] Page suivante

Utiliser la version classique