Le Forum de l'Alliance Francophone

Nouvelles:

Auteur Sujet: Tâches "non concluantes" et/ou en erreur  (Lu 1943 fois)

0 Membres et 1 Invité sur ce sujet

Hors ligne tryphon

  • P'tit Nouveau
  • *
  • Messages: 36
  •   
le: 24 September 2019 à 11:12
Bonjour,

De retour sur BOINC depuis peu, je fais face à des tâches déclarées comme non ou peu concluantes ainsi qu'à quelques tâches reconnues comme étant en erreur.

Non concluantes
- 1 tâche sur Einstein
- 1 tâche sur LHC
- 5 tâches sur SETI
- 31 tâches sur MilkyWay

En erreur
- 4 tâches sur Einstein


J'imagine que les tâches sont déclarées comme non concluantes lorsqu'elles ne concordent pas avec au moins une autre tâche de la même unité de travail.
Si c'est bien cela, j'imagine que toutes les tâches d'une même unité de travail sont alors déclarées "non concluantes" et qu'il s'en suit une analyse approfondie de la part du Projet et que le résultat final peut être soit une validation définitive de la tâche soit un rejet (statut "invalide" ou "erreur") définitif de la tâche.

Est-ce la bonne interprétation ?

Y a-t-il un moyen de limiter voire d’annihiler la reconnaissance de tâches comme étant non concluantes ? (ne pas switcher trop souvent de projet ? allocation de cpu de façon stable et pas en dents de scie ?...)


Quid des tâches en erreur ? Est-ce toujours de notre "faute" ou parfois aussi de celle du Projet ?
Que faire pour y remédier ?

Avez-vous besoin de plus d'information sur les tâches en question pour pouvoir répondre à ces quelques questions ?

Parrainage Pangolin : https://shop.shadow.tech/invite/ROMDRJY4 (de -5€ à -15€ sur la première facture)


Hors ligne modesti

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 19058
  •   
    • Brocantes en Bourbonnais
    • E-mail
Réponse #1 le: 24 September 2019 à 22:25
:hello:

De mémoire, les tâches sont souvent peu/non concluantes sur MilkyWay, elles rentrent généralement dans le rang par la suite et sont validées.
Sinon, ton interprétation est bonne. Il y a généralement divergence entre des résultats calculés sur des GPU différents (une tâche sur NVidia et l'autre sur AMD) ou entre des résultats calculés d'un côté sur GPU, de l'autre sur CPU.

Pour les tâches en erreur, tu peux cliquer sur "Task ID" (1ère colonne) pour voir le "stderr.txt" en dessous des indications classiques.

Non concluant et erreur sont des aléas avec lesquels il faut vivre. Ce n'est pas un drame ;)
Si tu as rejoint le projet WUprop, tu comptabiliseras au moins les heures calculées pour obtenir de jolis badges étoilés :D

J'espère que cela t'aidera


Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip - In memoriam Cocagne


Hors ligne JeromeC

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 31108
  •   
Réponse #2 le: 25 September 2019 à 14:38
En gros si tu constates que pour un projet donné tu as un taux d'erreur trop élevé par rapport au volume de tâches que ta machine traite, il vaut mieux ne plus faire ce projet (voire sous-projet / appli) sur la machine concernée, et se concentrer sur un projet / appli où elle fonctionne bien :)

Quitte à revenir voir quelques temps plus tard si c'est pareil ou amélioré, les causes de plantage peuvent être tellement nombreuses...

Si ta config le permet (mémoire) je recommande aussi l'option de garder les tâches en mémoire si suspendues, sur certains projets / sous certaines conditions ça peut aussi aider à réduire le taux d'erreur.

Enfin moi j'ai toujours très fortement augmenté le paramètre de rotation des tâches (changer d'applications toutes les X minutes) : ça fait des années que je tourne avec 1440 mn (1 jour) et tout se passe bien, ça ne l'empêche pas de mettre parfois des tâches en suspens pour en lancer d'autres sur d'autres projet au gré des priorités et des deadlines, mais je trouve que ça aide.

A quoi bon prendre la vie au sérieux, puisque de toute façon nous n’en sortirons pas vivants ? (Alphonse Allais)



Hors ligne modesti

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 19058
  •   
    • Brocantes en Bourbonnais
    • E-mail
Réponse #3 le: 25 September 2019 à 16:32
:plusun: avec mon voisin du dessus :)


Viendez chez nous, cause qu'on est les meilleur(e)s :D


In memoriam Jip - In memoriam Cocagne


Hors ligne tryphon

  • P'tit Nouveau
  • *
  • Messages: 36
  •   
Réponse #4 le: 25 September 2019 à 17:49
Merci à tous pour vos réponses.

Je suis maintenant sur Wuprop.
J'ai désactivé le vidage RAM en cas de pause. A voir si ça ne bouffe pas trop de RAM.
J'étais passé de 60 à 120 minutes pour le switch de Projets, ça me permet de lisser ma participation.

Quant à mes quelques tâches en erreur sous Einstein, voici un exemple (les autres sont du même type) : https://einsteinathome.org/fr/task/883347489
Si je lis correctement, la tâche a été recommencée depuis le début à plusieurs reprises et j'ai alors dépassé alors la date butoir pour le retour des calculs.
Il semblerait qu'à chaque fois, la puce GPU Intel intégrée soit en cause. J'imagine que les mises en pause et les reprises de calculs utilisant ce petit gpu intégré n'ont pas été correctement digérées.

Parrainage Pangolin : https://shop.shadow.tech/invite/ROMDRJY4 (de -5€ à -15€ sur la première facture)


Hors ligne marsinph

  • P'tit Nouveau
  • *
  • Messages: 44
Réponse #5 le: 25 September 2019 à 19:49
@ Tryphon
La WU sous Einstein, c est normal qu'elle soit en erreur. Ton PC bloque l acces au check point et donc au slot.
Raison pour laquelle elle recommence au début.
Donc un souci de config locale.


@Modesty, tu as totalement raison pour Milky car  les WU terminées ne vont pas dans "pending", mais "inconclusive". Pas de souci.
C'est un leger bug. Un peu surprenant, mais sans aucune conséquence.

@JeromeC,
Passer à 1440min est une solution tres réaliste. Mais, cela demande alors une gestion poussée des PRJ, deadline, tenant compte que certain PRJ ne tiennent jamais compte du BoincMgr, prenant d'office la priorité absolue.
J'avais pâr le passé modifié ce temps de "bascule" à 6 heures (peu de PRJ depassent ces 6 heures).
J ai fais marche arriere avec un PRJ CPU et un PRJ GPU par machine. Et encore, pas mettre du Milky avec du Asteroid ou avec Amicable
Moo avec LHC, c est l horreur aussi.
Jamais du amicable sur un PC avec deux GPU non plus.

Merci mon fichier excelle de rendement qui m a pris des mois à etre developpé. Pas parfait, loin de la, mais un bon indicateur.



 



Hors ligne JeromeC

  • CàA
  • Boinc'eur devant l'éternel
  • *****
  • Messages: 31108
  •   
Réponse #6 le: 25 September 2019 à 22:34
Honnêtement une fois que j'ai un réglage j'y touche plus trop du moment que la machine a l'air de tourner à peu près normalement, j'ai rarement constaté des tâches abandonnées à cause de deadline.

Sachant que sur mon vieil iMac je sais bien qu'il est très limite pour faire tout ça, mais comme ça fait bientôt 10 ans qu'il tourne H24 à 100% de CPU, ma foi, je continue et je laisse faire la nature :D


@fichier checkpoint : comment le PC peut-il "bloquer l'accès au (fichier de) checkpoint" ??

A quoi bon prendre la vie au sérieux, puisque de toute façon nous n’en sortirons pas vivants ? (Alphonse Allais)