Auteur Sujet: MLC@Home  (Lu 746 fois)

0 Membres et 1 Invité sur ce sujet

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
MLC@Home
« le: 01 juillet 2020 à 19:14 »
                                                                                 



Infos utiles.
Projet personnel de John Clemens : https://scholar.google.com/citations?user=kIKFod8AAAAJ&hl=en
MLC@Home est désormais,juillet 2020,un projet du laboratoire CORAL (The Cognition, Robotics, and Learning) de l'université du Maryland, comté de Baltimore (UMBC). https://coral-lab.umbc.edu/
MLC@Home est un projet de calcul distribué consacré à la compréhension et à l'interprétation de modèles d'apprentissage machine complexes, en mettant l'accent sur les réseaux de neurones.




Statut : actif
URL du projet : https://www.mlcathome.org/mlcathome/ 
Application disponible : https://www.mlcathome.org/mlcathome/apps.php
État du serveur : https://www.mlcathome.org/mlcathome/server_status.php
L'alliance Francophone : https://www.mlcathome.org/mlcathome/team_display.php?teamid=4
Classement mondial de L'af : pas disponible

 





« Modifié: 18 juillet 2020 à 10:34 par fzs600 »

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : MLC@Home
« Réponse #1 le: 01 juillet 2020 à 20:43 »
Citer
1 Jul 2020, 16:30:38 UTC    1 Jul 2020, 18:35:18 UTC    Terminé et validé    7,435.78    7,141.05    260.00    Machine Learning Dataset Generator v0.90
x86_64-pc-linux-gnu
Citer
   1 Jul 2020, 16:30:38 UTC    1 Jul 2020, 18:38:46 UTC    Terminé et validé    7,600.80    7,310.49    260.00    Machine Learning Dataset Generator v0.90
x86_64-pc-linux-gnu
Citer
   1 Jul 2020, 16:30:38 UTC    1 Jul 2020, 18:38:46 UTC    Terminé et validé    7,646.09    7,360.04    260.00    Machine Learning Dataset Generator v0.90
x86_64-pc-linux-gnu

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

nabz

  • Animateur fanatique
  • Messages: 5530
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #2 le: 01 juillet 2020 à 21:30 »
Arf, réservé aux pingouins. :/
Contrôle de BOINC : SAM - BoincTasks 1.80 béta - Bureau à distance Chrome
Calculs : Boinc 7.16.6 SE - VirtualBox 6.1.12 -  TThrottle 7.72 - Pilote AMD 20.4.2 - Pilote nVidia 451.67
OS et utilitaires : Win10 Pro x64 rev 20.04 - Core Temp 1.15 - CCleaner 5.69

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : Re : MLC@Home
« Réponse #3 le: 01 juillet 2020 à 21:52 »
Arf, réservé aux pingouins. :/
Une application Windows est prévu.

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

Maeda

  • Messages: 1106
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #4 le: 01 juillet 2020 à 22:48 »
Pour les manchots :D !
Merci pour l'info, je tente :hello:
Sous Linux ? => ⛏ Script pour suspendre / reprendre les UT | ☺Que faire avant un RAID/Pentathlon ? Passer l'aspirateur dans ses machines !

Folding@Home

toTOW

  • Messages: 4098
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #5 le: 02 juillet 2020 à 16:44 »
C'est typiquement le genre de projet que je pensais voir uniquement en GPU sur RTX ... :siflotte:
« Modifié: 04 juillet 2020 à 00:16 par toTOW »
FAH-Addict, première source d'information francophone sur le projet Folding@Home.

modesti

  • CàA
  • Messages: 16699
  • Boinc'eur devant l'éternel
  • *****
  •   
    • Brocantes en Bourbonnais
Re : MLC@Home
« Réponse #6 le: 02 juillet 2020 à 18:39 »
"Projet personnel" - donc si on veut avoir un minimum de points avant qu'il ne soit terminé, on a intérêt à se dépêcher :D

:marcp:

Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : Re : MLC@Home
« Réponse #7 le: 02 juillet 2020 à 19:18 »
"Projet personnel" - donc si on veut avoir un minimum de points avant qu'il ne soit terminé, on a intérêt à se dépêcher :D

:marcp:
C'est bien possible.

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

[AF>Libristes] Dudumomo

  • Messages: 6004
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #8 le: 03 juillet 2020 à 03:32 »
Pas d'export de stats encore.
Je vais leur demander.
News & Tutorial on how to host your server: http://freedif.org

modesti

  • CàA
  • Messages: 16699
  • Boinc'eur devant l'éternel
  • *****
  •   
    • Brocantes en Bourbonnais
Re : MLC@Home
« Réponse #9 le: 03 juillet 2020 à 08:45 »
Merci Dudu :jap:
C'était du rapide: le projet est déjà dans les stats de Seb

Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip

[AF>Libristes] Dudumomo

  • Messages: 6004
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #10 le: 03 juillet 2020 à 15:33 »
Tout est parti en erreur de mon coté.
Il faut installer fuse  :coffeetime:
News & Tutorial on how to host your server: http://freedif.org

modesti

  • CàA
  • Messages: 16699
  • Boinc'eur devant l'éternel
  • *****
  •   
    • Brocantes en Bourbonnais
Re : MLC@Home
« Réponse #11 le: 03 juillet 2020 à 17:36 »
Pas eu de soucis de mon côté, mais je viens de vérifier et fuse2 et fuse3 sont installés.
Vu que c'est un Manjaro installé lors d'une Linux Install Party, je ne sais pas trop tout ce que j'ai côté logiciels, j'avoue :desole:

Citer
2 Jul 2020, 16:44:10 UTC    2 Jul 2020, 18:52:36 UTC    Completed and validated    3,290.75    3,268.89    260.00    Machine Learning Dataset Generator v0.90 x86_64-pc-linux-gnu

Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip

Oncle Bob

  • Messages: 4196
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : Re : MLC@Home
« Réponse #12 le: 03 juillet 2020 à 18:19 »
Arf, réservé aux pingouins. :/

L'OS est pas cher si tu veux mettre une VM en place :o
Boincstat
Projets du moment
Config principale : i7 2600K@4,0 GHz / 32 Go@1333 MHz / R9 290X (Win 10)
Crunchbox passives : i7-4785T / 8 Go@1600 MHz / Akasa Euler S (Debian) || i3-4130T / 4 Go@1600 MHz / Akasa Euler (Debian)
ARM : 2*H3 + 1*S905X + 3*S912 | RAID : 2*L5408 + 1*E3110
Boinc@Raspberry Pi | Boinc et Linux | Date fin de projets

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : Re : Re : MLC@Home
« Réponse #13 le: 03 juillet 2020 à 19:14 »

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

JeromeC

  • CàA
  • Messages: 25021
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #14 le: 04 juillet 2020 à 14:50 »
Sur Debian j'ai dû aussi installer fuse (j'avais pourtant cru qu'il y était, je suis pas un pro de apt...) car ça partait en cahouette mais après ça tourne.
Parce que c'était lui, parce que c'était moi.

[AF>Libristes] Dudumomo

  • Messages: 6004
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : Re : MLC@Home
« Réponse #15 le: 05 juillet 2020 à 14:54 »
Pas d'export de stats encore.
Je vais leur demander.

Il y a maintenant les stats.
A activer (Donnez votre accord) sur le site du projet.
News & Tutorial on how to host your server: http://freedif.org

JeromeC

  • CàA
  • Messages: 25021
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #16 le: 05 juillet 2020 à 16:06 »
C'est quand même bizarre que ce paramètre soit ignoré par StatSeb chez qui j'ai commencé à faire des crédits direct, y'a que SetiBZH qui le respecte (je parle en général, pas que pour ce projet).

C'est lié au fait que StatSeb ne lit pas les mêmes fichiers de données sur les sites des projets que SetiBZH, et que les projets en question ne respectent pas la case à cocher pour ces types de fichiers là ?
Parce que c'était lui, parce que c'était moi.

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : MLC@Home
« Réponse #17 le: 07 juillet 2020 à 06:40 »
Une application Windows est désormais disponible.
https://www.mlcathome.org/mlcathome/apps.php
Citer
   7 Jul 2020, 4:36:36 UTC    10 Jul 2020, 4:36:36 UTC    En cours    ---    ---    ---    Machine Learning Dataset Generator v9.20
windows_x86_64

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

[AF>Libristes] Elorak

  • Messages: 622
  • Boinc'eur Respectable
  • ****
  •   
Re : Re : MLC@Home
« Réponse #18 le: 07 juillet 2020 à 18:15 »
Une application Windows est désormais disponible.
https://www.mlcathome.org/mlcathome/apps.php
Citer
   7 Jul 2020, 4:36:36 UTC    10 Jul 2020, 4:36:36 UTC    En cours    ---    ---    ---    Machine Learning Dataset Generator v9.20
windows_x86_64

Il faut cocher: Exécuter les applications de test

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : Re : Re : MLC@Home
« Réponse #19 le: 07 juillet 2020 à 18:26 »
Une application Windows est désormais disponible.
https://www.mlcathome.org/mlcathome/apps.php
Citer
   7 Jul 2020, 4:36:36 UTC    10 Jul 2020, 4:36:36 UTC    En cours    ---    ---    ---    Machine Learning Dataset Generator v9.20
windows_x86_64

Il faut cocher: Exécuter les applications de test
C'est exact.  :kookoo:

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

nabz

  • Animateur fanatique
  • Messages: 5530
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : Re : MLC@Home
« Réponse #20 le: 07 juillet 2020 à 21:44 »
Une application Windows est désormais disponible.

Merci pour l'info. :jap:
Contrôle de BOINC : SAM - BoincTasks 1.80 béta - Bureau à distance Chrome
Calculs : Boinc 7.16.6 SE - VirtualBox 6.1.12 -  TThrottle 7.72 - Pilote AMD 20.4.2 - Pilote nVidia 451.67
OS et utilitaires : Win10 Pro x64 rev 20.04 - Core Temp 1.15 - CCleaner 5.69

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : MLC@Home
« Réponse #21 le: 10 juillet 2020 à 20:35 »
Diligence scientifique / objectif de la recherche
https://www.mlcathome.org/mlcathome/forum_thread.php?id=30&postid=152

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

fzs600

  • Méchant modo
  • Messages: 6510
  • Boinc'eur devant l'éternel
  • ******
  •   
Re : MLC@Home
« Réponse #22 le: 11 juillet 2020 à 21:07 »
L'admin cherche un volontaire.  :kookoo:
Citer
Tout ça, je n'ai pas de mac sur lequel m'appuyer, donc il n'y a pas d'application test, et il n'y en aura pas non plus de sitôt.

Ce dont j'ai besoin, c'est d'un développeur mac osx qui soit prêt à porter/compiler/débugger/tester une application à partir des sources. Tant qu'un développeur ne se présentera pas, il n'y aura pas de support osx. J'en ai le désir, mais je n'ai ni le matériel ni le savoir-faire.

Traduit avec www.DeepL.com/Translator (version gratuite)
https://www.mlcathome.org/mlcathome/forum_thread.php?id=27&postid=158

Utilisateur GNU-LINUX. fzs600@hub.g3l.org

JeromeC

  • CàA
  • Messages: 25021
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #23 le: 12 juillet 2020 à 13:36 »
Diligence scientifique / objectif de la recherche
https://www.mlcathome.org/mlcathome/forum_thread.php?id=30&postid=152

Citer
Etant récemment tombé sur votre nouveau projet, j'ai tout de suite aimé la question de la recherche ainsi que le fait que la plateforme soit ouverte au grand public. Je pense vraiment que l'étude de cette question pourrait donner des résultats intéressants. J'ai cependant été très intéressé par les informations de base sur la façon dont vous mettez en œuvre ce projet.

Pour moi, il y a deux aspects importants lorsqu'il s'agit de modèles complexes, en particulier dans l'espace des réseaux de neurones. L'explicabilité et l'interprétabilité des modèles. Le premier consiste à pouvoir expliquer pourquoi un modèle a donné une certaine prédiction (a donné une solution spécifique) et le second consiste à savoir comment le modèle a réellement donné cette solution. Habituellement, les praticiens ne s'intéressent qu'au premier aspect, car il s'agit essentiellement de l'exploration de la solution optimale/prévision (c'est-à-dire la moindre erreur de classification) et veulent donc comprendre pourquoi les résultats obtenus par une structure de réseau formée de manière optimale sont jugés optimaux et comment ils sont transférés dans le monde réel. Il s'agit essentiellement d'une inférence probabiliste causale permettant d'établir une relation de cause à effet pour donner un sens à la solution optimale.

Le deuxième élément concernant l'interprétabilité du modèle est généralement très négligé et est la raison pour laquelle beaucoup appellent les structures de réseau sophistiquées des modèles de boîte noire, car ils ne savent que ce qui se passe techniquement à l'intérieur du réseau/modèle mais ne peuvent pas vraiment le sonder/transférer au sens du monde réel dans la façon dont le modèle trouve la solution. Alors que l'explication d'une structure optimale pourrait être possible, la signification réelle de la transformation des données n'est pas vraiment intuitive (sélection des caractéristiques, activation des données plus biais, schémas de pondération des neurones, topologie du réseau, fonctions d'activation, taux d'apprentissage, coefficients de moment, montée et descente du gradient, optimisation stochastique de la méthode du gradient, propagation des erreurs en retour et mise à jour des poids, etc.)

D'après ce que j'ai compris, les gens se tournent vers les diagrammes de dépendance partielle, les variables de substitution globales ou locales ou la valeur de Shapley pour obtenir au moins une compréhension intuitive, jusqu'à un certain niveau, des variables qui tendent à expliquer la plus grande partie de la solution globale prévue. Vous pouvez également utiliser n'importe quel algorithme de réduction dimensionnelle tel que l'ACP pour obtenir une meilleure intuition sur la saisie des données, mais la formation NN n'est pas encore plus intuitive. Pour moi, c'est donc vraiment le problème de l'interprétabilité du modèle. C'est là que vous voulez aborder le problème, n'est-ce pas ?

Pour en revenir à votre page de description, vous savez que de nombreux réseaux neuronaux sont formés en parallèle avec des entrées, des hyperparamètres et des structures de réseau étroitement contrôlés. Pour moi personnellement, de nombreuses questions demeurent.

- Quelle est la technique utilisée pour entraîner les réseaux (montée et descente en gradient ou toute autre technique améliorée stochastiquement) ?
- ces techniques varieront-elles en fonction de l'UG ou des lots ?
- considère-t-on des structures de réseaux neuronaux spécifiques ou de simples ANNs "plain vanilla" ?
- quel ensemble de données est utilisé pour la formation afin de comprendre ce que les modèles formés tentent de prévoir ? Je ne veux pas former certains modèles sur des données douteuses / dans un but douteux.
- nous concentrons-nous sur les réseaux de neurones pour la classification (sortie catégorielle) ou formons-nous aux modèles de régression des réseaux de neurones (sortie numérique)
- Que signifie un contrôle étroit des hyperparamètres ? Un sous-ensemble de HP est-il fixé pour toutes les UGF et seul un HP est changé à la fois dans chaque UGF ?
- de nombreux hyperparamètres sont-ils modifiés simultanément par unité d'eau, c'est-à-dire un ensemble ou un sous-ensemble de HP ? Comment contrôlez-vous les effets de chevauchement ?
- quels hyperparamètres prenez-vous en compte ? Nombre de couches cachées, neurones par couche, différentes fonctions d'activation, différentes méthodes de gradient, biais, schémas de pondération, initialisation du poids, différents rapports de division de l'ensemble de données en ensemble d'entraînement et de test, introduction de bruit dans les données, méthodes d'échantillonnage des données d'entraînement, méthodes d'échantillonnage stratifiées/matières cachées, régularisation, introduction d'un coefficient d'impulsion pour l'apprentissage, sélection de caractéristiques, méthodes d'échantillonnage de sous-ensembles de caractéristiques, ingénierie des caractéristiques, etc. qui, d'après ce que je comprends, sont tous qualifiés d'hyperparamètres, c'est-à-dire tout paramètre dont la valeur doit être décidée et convenue avant le début de l'entraînement ? Il n'est pas nécessaire de dresser une liste exhaustive, mais simplement de connaître l'essentiel de la direction que prend ce projet.
- Cet ensemble d'hyperparamètres considérés changera-t-il au fil du temps ou est-il statique ?
- d'autres types de réseaux seront-ils formés à l'avenir ? des réseaux convolutifs, récurrents ou à auto-encodeur par exemple, qui ont tous un nombre croissant de cas d'utilisation dans le monde réel ?
- comment comptez-vous analyser les résultats produits par notre WU écrasé ? Selon quels processus/critères les analysez-vous ? Une attention particulière est-elle accordée à certains HP ? Comment évaluez-vous l'ensemble des données du modèle généré ? Seulement les taux d'erreur de classification pour la précision ? Comment jugez-vous la complexité ? Toute intention de rendre un algorithme qui tente essentiellement de trouver un modèle à partir de l'ensemble des données générées qui (comme l'ACP ou la régression) conserve la plus grande partie de la variance globale des données mais avec le moins d'entrées possible (essentiellement à une complexité donnée (définie selon une mesure pondérée) donnerait toujours la "structure de réseau la plus simple" à une complexité donnée (disons quelques hyperparamètres fixes/contraints) -> Je me demande simplement ce que vous voulez analyser ?

Nous apprécierions toute information supplémentaire que vous pourriez nous communiquer :)


Citer
Désolé pour le retard de réponse, le jeudi est ma journée la plus chargée.

Tout d'abord, des questions fantastiques. Je vais essayer de les couvrir toutes ici du mieux que je peux. Pour plus d'informations, je suis en train de créer une page web pour couvrir la plupart de vos questions... vous pouvez la voir sur le site principal https://www.mlcathome.org/index.html, et cliquez sur "MLDS Datasets" dans la barre latérale. Cette page est encore en construction, mais elle répondra à certaines de vos questions et vous permettra de télécharger l'ensemble de données.

Je reconnais que je suis beaucoup plus intéressé par l'interprétabilité du réseau que par l'explication des raisons pour lesquelles une entrée particulière produit une sortie particulière. Le LRP, les gradients intégrés, etc. font déjà un bon travail en montrant quelles parties de l'entrée ont le plus contribué à la sortie particulière. Mais pour ce faire, vous avez besoin d'intrants et vous observez essentiellement comment le réseau transforme cet intrant particulier. Super, utile, mais je veux regarder un réseau sans me fier à un intrant particulier. Je pense que cela correspond aussi à ce qui vous intéresse. Un domaine de recherche que j'ai vu est celui de Weiss et al. où ils essaient d'extraire des automates directement des RNN en utilisant des modèles d'inférence grammaticale. Remarque : j'ai pu reproduire leurs travaux pour les classificateurs, mais pas les réseaux modélisant un transducteur, où chaque état est un état d'acceptation. Il existe de nombreux autres travaux dans ce domaine également, je les utilise simplement comme exemple de personnes qui ne s'intéressent qu'à la structure et aux poids du réseau.

Cela dit, pour l'instant, je ne fais que créer un ensemble de données, il n'y a aucune raison qu'il ne puisse pas être utilisé pour les deux. Ou quelque chose de complètement différent.

J'en viens maintenant à vos questions spécifiques :

- quelle est la technique utilisée pour entraîner les réseaux (montée et descente par gradient ou toute autre technique stochastique améliorée) ?

La descente de gradient stochastique. L'optimiseur d'Adam. Le code est disponible sur gitlab

- Ces techniques varieront-elles en fonction de l'UE ou des lots ?

Pour ce premier tour, non, mais pour les travaux futurs absolument.

- Est-ce que des structures de réseaux neuronaux spécifiques sont envisagées ou de simples ANNs "plain vanilla" ?

Je suis vraiment intéressé par les RNN, donc ce premier lot est constitué de RNN empilés très simples basés sur ceux de cet article, non pas parce qu'il s'agit d'un papier RGEAT par exemple, mais parce qu'il contient des machines très simples qui sont faciles à modéliser avec un RNN et qui sont faciles à former rapidement. Elles constituent un bon banc d'essai pour éliminer les défauts du système.

- quel ensemble de données est utilisé pour la formation afin de comprendre ce que les modèles formés essaient de prévoir ? Je ne veux pas former certains modèles sur des données douteuses / dans un but douteux.

Voir le document ci-dessus, et le code sur gitlab.com. Les données de formation sont des séquences d'entrée aléatoires et des séquences de sortie observées sur ces "machines" jouets.

- nous concentrons-nous sur les réseaux de neurones pour la classification (sortie catégorielle) ou formons-nous aux modèles de régression des réseaux de neurones (sortie numérique)

Régression. Voir ci-dessus, nous prédisons des séquences de sortie.

- Que signifie un contrôle serré des hyperparamètres ? Un sous-ensemble de HP est-il fixé pour toutes les WU et seul 1 HP est changé à la fois dans chaque WU ?

Ce premier lot est composé d'hyperparamètres fixes, mais les lots suivants pourraient changer d'hyperparamètres. Si c'est le cas, nous n'en générons pas seulement un, mais des milliers avec le même ensemble d'hyperparamètres. Et ces hyperparamètres seront documentés avec cet ensemble de données afin que chacun sache ce qui change, et nous avons de multiples exemples à comparer.

- Est-ce que plusieurs hyperparamètres sont modifiés simultanément par unité de puissance, c'est-à-dire un ensemble ou un sous-ensemble de l'ensemble des HP ? Comment contrôlez-vous les effets de chevauchement ?

Puisque nous avons la possibilité d'en faire fonctionner tant en parallèle, je dirais que nous devrions faire fonctionner plusieurs lots en les modifiant un à la fois, puis les combiner, de sorte que l'ensemble de données résultant contienne toutes ces informations pour une analyse ultérieure.

- Quels sont les hyperparamètres que vous considérez ? Le nombre de couches cachées, les neurones par couche, les différentes fonctions d'activation, les différentes méthodes de gradient, le biais, les schémas de pondération, l'initialisation des poids, les différents rapports de division de l'ensemble de données en ensembles de formation et de test, l'introduction du bruit dans les données, les méthodes d'échantillonnage des données de formation, les méthodes d'échantillonnage stratifié/exploitation, la régularisation, l'introduction d'un coefficient de momentum pour l'apprentissage, la sélection des caractéristiques, les méthodes d'échantillonnage des sous-ensembles de caractéristiques, l'ingénierie des caractéristiques, etc. qui, d'après ce que je comprends, sont tous qualifiés d'hyperparamètres, c'est-à-dire tout paramètre dont la valeur doit être décidée et convenue avant le début de la formation ? Il n'est pas nécessaire de dresser une liste exhaustive, mais simplement de connaître l'essentiel de la direction que prend ce projet.
[citation]
Tous seront pris en considération. La version actuelle du client peut modifier le nombre de couches cachées, la largeur des couches cachées et différents ratios de formation et de test. C'est du pytorch sous le capot, donc tout ce qu'ils supportent, nous pouvons le supporter. Pour en ajouter, il suffit d'ajouter des boutons au binaire.


- Cet ensemble d'hyperparamètres considérés va-t-il changer avec le temps ou est-il statique ?

Le client évoluera dans le temps et cet ensemble va certainement s'accroître.

- d'autres types de réseaux seront-ils formés à l'avenir ? des réseaux convolutifs, récurrents ou à auto-encodeur par exemple, qui ont tous un nombre croissant de cas d'utilisation dans le monde réel ?

Oui. Je m'intéresse particulièrement aux transformateurs...

- comment comptez-vous analyser les résultats produits par notre WU écrasé ? Selon quels processus/critères les analysez-vous ? Un intérêt particulier pour certains HP ? Comment évaluez-vous l'ensemble des données générées par le modèle ? Seulement les taux d'erreur de classification pour la précision ? Comment jugez-vous la complexité ? Toute intention de rendre un algorithme qui tente essentiellement de trouver un modèle à partir de l'ensemble des données générées qui (comme l'ACP ou la régression) conserve la plus grande partie de la variance globale des données mais avec le moins d'entrées possible (essentiellement à une complexité donnée (définie selon une mesure pondérée) donnerait toujours la "structure de réseau la plus simple" à une complexité donnée (disons quelques hyperparamètres fixes/contraints) -> Je me demande simplement ce que vous voulez analyser ?

Eh bien, j'ai quelques idées sur ce que je veux faire avec l'ensemble de données, mais l'ensemble de données lui-même sera rendu public pour que tous puissent l'analyser comme ils le souhaitent.

Veuillez lire la première page sur https://www.mlcathome.org et la page spécifique de mlds sur https://www.mlcathome.org/mlds.html, cela vous donnera plus d'informations.

J'espère que cela a répondu à la plupart de vos questions, et encore une fois, merci pour votre intérêt !


Notez que la réponse ci-dessus ne s'applique qu'à l'application MLDS fonctionnant sur MLC@Home. Je vois que cette infrastructure est également utilisée pour d'autres applications, et j'en parle avec d'autres chercheurs. Voici quelques autres idées qui me viennent immédiatement à l'esprit :


Recherche d'architecture neurale
Neuro-évolution
Recherche d'hyperparamètres pour un objectif spécifique


Mais pour l'instant, MLDS est la seule application fonctionnant sur MCL@Home. Au fur et à mesure que d'autres projets seront mis en ligne, je leur demanderai d'afficher plus d'informations ici afin que d'autres puissent choisir de contribuer ou non à ces sous-projets.


Citer
Merci beaucoup d'avoir pris le temps d'entrer dans les détails de votre réponse. Votre réponse est très intéressante à lire. En parcourant le document technique auquel vous avez fait référence, la formation des RNN avec les différentes architectures simples n'est en fait qu'un point de départ pour votre analyse, en construisant essentiellement l'ensemble de données initiales des modèles formés que vous voulez étudier, n'est-ce pas ?

C'est génial que vous soyez d'accord avec moi pour vous concentrer principalement sur l'aspect de l'interprétabilité des prédictions dérivées des RNN plutôt que sur l'aspect de l'explicabilité. Le pointeur Gitlab est apprécié. Je vais y regarder de plus près. Je suis vraiment ravi de voir que les HP changent avec le temps pour chaque lot d'entraînement de modèle et encore plus des résultats potentiels qu'une comparaison pourrait donner.

Vous avez certainement des sujets de recherche brûlants en tête pour l'avenir ainsi que pour les applications ultérieures. Vos travaux de recherche ont certainement du mérite et méritent mon soutien pour permettre de nouvelles explorations scientifiques dans cet espace.

Merci également de m'avoir indiqué le site web du MLDS, car je n'en avais pas connaissance auparavant. Je suis heureux de voir que des efforts sont faits pour expliquer aux autres le type de science qui est pratiqué et en particulier les objectifs du projet.

J'aurais aimé que les autres administrateurs du projet fassent preuve d'une rapidité et d'une éloquence de réponse similaires. J'espère que cette norme sera maintenue tout au long du projet et pas seulement au début, alors que les choses s'accélèrent pour attirer des volontaires.

J'aime ce que je vois ici et je resterai dans le coin car je m'intéresse à la façon dont les choses vont évoluer même si je ne peux contribuer qu'avec 12 fils de mon vieux Xeon. Bonne chance pour ce projet !

Continuez à vous démener ! [arf là pour le coup deepl n'a pas capté le "keep crunching away" !!]

Traduit avec www.DeepL.com/Translator (version gratuite)

Un projet hyper intéressant et un admin hyper intéressant !!!
« Modifié: 12 juillet 2020 à 13:39 par JeromeC »
Parce que c'était lui, parce que c'était moi.

JeromeC

  • CàA
  • Messages: 25021
  • Boinc'eur devant l'éternel
  • *****
  •   
Re : MLC@Home
« Réponse #24 le: 12 juillet 2020 à 14:07 »
Biologie ? vraiment ? un projet qui cherche à travailler sur la validation de modèle d'IA ?

Je sais qu'on a pas vraiment de catégorie pour ça, alors pourquoi pas dans la section des projets générale ? ou celle des projets multi-catégorie ? (vu que visiblement le projet va évoluer, tout en restant dans ce domaine de recherche)
Parce que c'était lui, parce que c'était moi.