Portail de l'AF

Nouvelles

Projet du Mois FB: Yoyo@home

Faites un don

Shoutbox

JeromeC:
2024-09-12, 21:09:09
(tu peux d'ailleurs changer le thème)
JeromeC:
2024-09-12, 21:08:45
Re-bienvenu sur la nouvelle version du forum :)
zelandonii:
2024-09-11, 20:34:12
Très sympa cette nouvelle interface.
zelandonii:
2024-09-11, 20:34:00
Ça tourne du tonnerre !
zelandonii:
2024-09-11, 20:33:46
Pour faire plus simple, j'ai remplacé le waterblock par un ventilateur et j'ai rajouté deux ventilos.
zelandonii:
2024-09-11, 20:33:11
Quelques semaines que je n'étais pas venu pour cause de panne du PC. C'était le watercooling qui n'avait plus de liquide.
zelandonii:
2024-09-11, 20:32:11
Salut à tous !
JeromeC:
2024-09-10, 10:08:05
Autre option : on déménage tous au Groenland et voila.
ousermaatre:
2024-09-08, 19:21:28
 :hello: Meuh non, il y aura tjrs des raids, seulement, ils seront peut-être, plus souvent sur les mêmes thèmes.
[AF>Libristes] alain65:
2024-09-08, 18:02:24
Ça serait dommage, c'est la seule compète à laquelle j'ai le temps de participer. On bascule sur les projets du raid...Et plus qu'à attendre.
JeromeC:
2024-09-08, 16:15:50
Au train où vont les choses on fera bientôt plus aucun RAID alors...... :/
[AF>Libristes] alain65:
2024-09-07, 06:05:51
Une idée comme ça en passant : Le Raid d'automne au tout début de l'hiver et le raid de printemps à la fin  :siflotte:
[AF>Libristes] alain65:
2024-09-07, 06:04:21
@modesti : Ça c'est une bonne nouvelle ;)
modesti:
2024-09-06, 11:43:05
Petite info pour les fans de raid : compte tenu des températures (même si elles ont baissé un peu), le raid d'automne sera transformé en raid d'hiver
modesti:
2024-09-03, 10:48:11
Et le retour d'ARP  :bounce:
Maeda:
2024-09-03, 09:51:08
Un nouveau projet pour WCG pour la fin d'année ? https://www.worldcommunitygrid.org/forums/wcg/viewthread_thread,46744_offset,0
Maeda:
2024-08-28, 08:55:36
Prêt !
modesti:
2024-08-26, 15:13:48
Salut les AFones ! :hello: Prêts pour la rentrée ?
modesti:
2024-08-24, 11:11:06
Je confirme: ça marche! Merci beaucoup Sébastien :jap:
Maeda:
2024-08-24, 08:42:05
C'était ça, ça marche :jap:
Sébastien:
2024-08-24, 08:28:08
J'ai désactivé le rafraîchissement automatique de la shoutbox
Maeda:
2024-08-23, 21:59:28
@Sébastien : je ne suis pas sûr que tu aies saisi le souci soulevé par modesti. Si on ne touche à rien (pas de clic) dans la shoutbox, mais qu'on scroll vers le bas pour lire, au bout de ~2sec d'arrêt (pour lire), il remonte tout en haut (peu pratique
Sébastien:
2024-08-23, 19:34:16
Non ce n'est pas possible. Il n'y a pas de notion lu / non-lu pour les messages de la shoutbox.
modesti:
2024-08-22, 16:00:15
:hello: Petite question: il y aurait moyen que la shoutbox ne revienne pas automatiquement au dernier message posté pendant qu'on se met à jour de lecture ?
JeromeC:
2024-08-18, 22:32:17
Ah bah voilà je prends une semaine de congés je reviens et paf tout est migré ! Je préviens : je repars dans une semaine pour un semaine à nouveau, j'attends encore mieux à mon retour !!  :D  :jap: (et en plus ça marche nickel sur mon phone)
[AF] Kalianthys:
2024-08-18, 19:06:40
Merci Seb. Je confirme que c'est réparé.
Sébastien:
2024-08-18, 18:38:37
ça doit fonctionner maintenant.
[AF] Kalianthys:
2024-08-18, 15:50:28
Comment se connecte-t-on sur statseb depuis la migration ? avant c'était automatique.

Recent

[Linux] Script pour suspendre / reprendre les UT

Démarré par Maeda, 04 Juin 2016 à 16:32

« précédent - suivant »

0 Membres et 1 Invité sur ce sujet

Maeda

Bonjour à toutes et tous :)

J'ai fait deux petits scripts pratiques permettant de suspendre / reprendre les UT d'un projet au choix pour Linux à lancer dans un terminal.


  • Script suspend_calc :
    • Avantages :
      • Choix du projet
      • On ne bloque pas l'envoi des UT tout projet confondu
      • On peut cruncher sur d'autres projets, en sachant que celui ciblé verra ses UT suspendues avant la fin.
      • Automatique, pas la peine d'être présent pour suspendre.
      • Peut se lancer en parallèle pour toucher plusieurs projets.
      • Peut re-suspendre rapidement les UT concernées, notamment le temps de télécharger des UT supplémentaires pour le cache (pour dé-suspendre, utiliser resume_calc justement ;))
      • [MAJ 06/08/17 11h55] Un fichier de configuration permet d'indiquer facilement les projets et leur limite de temps / % restant et le script peut être lancé avec ou sans interaction utilisateur (grâce aux arguments).
      Inconvénients :
      • Il reste du temps de calculs à chaque UT
      • Il faut avoir une valeur raisonnable de temps estimé restant au plus proche de sa fin
      • Les UT suspendues n'étant pas terminées, elles sont stockées en mémoire. Un redémarrage système complet de la machine va faire perdre quelques minutes à chaque UT (dernier point de contrôle). Non négligeable s'il y a beaucoup d'UT, ces minutes seront à recalculer.
      • Pas sur Windows pour l'instant :p


  • Script resume_calc
    • Avantages :
      • On peut donner une date et heure de désuspension des UT (suspendues par le script suspend_calc ou via Boinc Manager)
      • Peut se lancer en parallèle pour programmer plusieurs projets.
      • Automatique
      • [MAJ 05/06/16 11h25] Vérifie et tue le processus suspend_calc au choix avant reprise des UT à l'heure définie
      • Peut dé-suspendre rapidement les UT concernées, notamment le temps de télécharger des UT supplémentaires pour le cache (pour re-suspendre, utiliser suspend_calc justement ;))
      • [MAJ 20/11/16 16h35] On peut bypasser le délai (en appuyant sur ENTREE) afin de faire une désuspension immédiate
      Inconvénients :
      • Pas sur Windows pour l'instant :p

Scripts suspend_calc et resume_calc disponibles sur Codeberg.



[MAJ 17/08/22 : Migration des fichiers vers Codeberg.

N.B : Il faut vérifier les projets/UT pour avoir la bonne valeur limite acceptable, puis l'indiquer dans le fichier de configuration (version 1.0 minimum) ou insérer une ligne supplémentaire dans le script suspend_calc et mettre la bonne "form" (version 0.1, voir README sur Codeberg).

=> Branche 1.1 : le script suspend_calc se base sur la portion (%) restant plutôt que le temps restant. Version testée et fonctionnelle, pas de bug pour l'instant.
=> Branche 1.0 : le script suspend_calc se base sur un fichier de configuration plus explicite. Il est conseillé d'utiliser la version 1.1 actuellement maintenue.
Branche 0.1 (fonctionnelle mais plus maintenue)

N'hésitez pas à me faire des retours uniquement pour discuter du script ou pour une aide au lancement. Pour toute envie de discussion de bug ou d'évolution : merci d'utiliser l'onglet Ticket sur Codeberg.

JeromeC

Merci pour le tuto et pour le script !

Si je comprends bien (je suis pas linuxien) il faut connaitre le temps de calcul estimé des UT du projet et il faut le mettre en paramètre dans le script ?
A quoi bon prendre la vie au sérieux, puisque de toute façon nous n'en sortirons pas vivants ? (Alphonse Allais)


Maeda

Pour WCG, j'ai mis 1 min, et pogs, 28min. Il faut voir pour les autres, si tu as par exemple un temps restant indiqué de 15 min (et 85% complété) et qu'il passe à 100% d'un coup. Dans ce cas, mettre proche des 30 min est sécuritaire.

Si des personnes connaissent, oui il faut mettre d'autres 'case' avec le bon format pour le timing (partie #Seuil de suspension limite en fonction du temps restant en fonction des projets ), exemple :
#Seuil de suspension limite en fonction du temps restant en fonction des projets
...
url_précise_de_mon_projet)
limite="5899s"
form="$chcom[1-5][0-8][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;


...stoppera lorsqu'il restera 5899s ou moins.
url_précise_de_mon_projet s'obtient avec :
boinccmd --get_project_status | grep "master URL"

-> S'assurer de bien tout prendre à partir de http inclus (le "/" à la fin également par exemple).
Sinon comme je l'ai indiqué, pour d'autres projets non listés dans la boucle case / esac, il prendra par défaut 5 min avant la fin.

Maeda

MAJ du 1er post pour resume_calc.
J'hésite à passer par défaut à moins d'une minute par détaut. Car si tout va bien, autant suspendre à moins d'une minute plutôt que 5 min.
Et justement, si cas particulier il y a, autant rajouter ces cas dans les "case".

Vous en pensez quoi ?
P.S. : je me servirai du script resume_calc ce soir à partir de 2h du matin pour le Pentathlon :hyperbon:.

P.P.S : L'idéal serait d'avoir un fichier de "conf" à côté indiquant les temps restants minimum exploitable pour chaque projet (chaque sous-projet peut-être même...). Mais comme c'est différent en fonction des machines (HT activé ou non, etc.), demander à chaque fois le temps voulu serait peut-être plus simple... A voir, pour l'instant, il n'y a que moi qui l'utilise :cavachier:

Scrat65

Merci beaucoup pour cette initiative. Je tourne sous LinuxMint 17.3 et c'est ma première participation à un Pentathlon. Comme je ne suis guère à l'aise avec les différentes techniques de lâcher, ton script pourrait m'apporter de la simplicité d'utilisation en gardant l'activité réseau toujours disponible.
Je viens d'utiliser suspend_calc pour The Skynet POGS et PrimeGrid et vais aussi tester resume_calc pour The Skynet POGS dans le cadre du Pentathlon ; mais pas à 2h du matin... :)
A suivre

Pour le temps par défaut  à moins d'une minute, cela semble logique de suspendre à moins d'une minute plutôt que 5 mn.
L'idée du fichier .conf serait idéale ; puisque chaque machine est spécifique ne pourrait-on pas imaginer une sorte d'apprentissage du temps de calcul basé sur les calculs précédents pour chaque projet sur la machine concernée ? Sinon, demander à chaque fois le temps restant voulu pour suspendre semble la solution la plus simple. J'espère ne pas avoir dit de bêtises...

Bonjour chez vous

PS : suspend_calc fonctionne très bien !
une UT PrimeGrid PPS (Sieve) 1.39 cudaPPSsieve vient d'être suspendue à 89,114 % (temps restant estimé 00:04:54)  :hello:
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Tant mieux !
Pour PrimeGrid, je le fais tourner avec 1m39s, aucun loupé.
Si ton temps d'actualisation est "temps réel" sans saut, tu peux passer à une minute.

Change la partie suivante ligne 45 par :
        *)
                limite="99s"
                form="$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;


Et relance ton script.
Je pense mettre une minute trente secondes par défaut du coup, je changerai si nécessaire.

Scrat65

Quelques petites questions :

1. Fermer la fenêtre du terminal lancé avec le script suspend_cal arrête-t-il le processus ? Si oui, il faut donc laisser ouvert le terminal jusqu'à exécution du script de reprise resume_calc ?

2. Je crois comprendre que la fenêtre du script resume_calc peut être fermée une fois indiqué le projet et l'heure choisis ; le script de reprise se mettra en route automatiquement à l'heure choisie et tuera le processus suspend_calc du projet correspondant avant la reprise des calculs ; c'est bien ça ?

3. Quand on lance le script de reprise resume_calc, il demande de tuer le processus de suspension et il indique le PID ; mais quand il y a plusieurs instances du script suspend_calc en route, il n'est pas possible de savoir à quel projet correspond chaque PID donc pas possible de choisir le processus suspend_calc à tuer correspondant au projet que l'on veut reprendre. C'est bien ça ?

4. Quant au réglage des temps, je vais voir comment ma machine se comporte


Encore merci pour ces script partagés

Bonjour chez vous
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

1. Oui, laisse ouvert, ce n'est pas en tâche de fond (j'ai trouvé ça trop risqué, en cas d'oubli, etc.).
2. Idem, laisse ouvert (il attend "bêtement" jusqu'à l'heure définie).
3. Oui je sais, j'ai fait ça vite fait hier matin :D. Déjà tu vois les PID c'est bien, mais j'ai rajouté l'heure de lancement aussi, ça peut aider à savoir lequel correspond à quoi. Sinon le plus simple est de préfixer (ou suffixer) chaque script par le nom du projet (dupliquer suspend_calc en, par exemple, suspend_calc_pogs). Ca fonctionnera car il n'y a aucun appel d'un programme vers l'autre, et il apparaitra lors du listage des PID. Pas pratique, mais dans l'immédiat à tester...
4. OK, des infos autre que celles de ma machine seront les bienvenus.

Scrat65

Merci.

Je retiens la solution de préfixer/suffixer le script pour plus de clarté
PS: peut-être que le script resume_calc pourrait être en tache de fond (donc possibilité de fermer sa fenêtre de terminal ?) puisque ce n'est pas le même risque que pour le script suspend_calc ?
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Disons qu'on a en tête le fait qu'il tourne (terminal ouvert), alors qu'en tâche de fond on risque de le zapper et en lancer un autre si on veut changer quelque chose.
Pour l'instant, je laisse comme ça.
P.S. : tu peux lancer le suspend_calc avec un argument, par exemple ./suspend_calc primegrid. Ça n'apparaîtra pas dans resume_calc, mais avec un ps manuel, on le verra. Ça évite de renommer.

Scrat65

J'ai utiliser l'idée de l'argument (suspend_calc universe) puis avec un petit ps -aux | grep calc ça marche du feu de Dieu ! :jap:
Et en plus ton sript m'oblige à apprendre la ligne de commande. Que du bonheur !  :hap:

PS : J'espère te rattraper au BOINC Pentathlon Challange sur Pogs  :cavachier:
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Je pensais mettre ça pour qu'on voit les projets, mais si tu lances deux fois ton ps -aux, on voit une autre ligne correspondant au grep :/. Moche pour choisir le PID.

P.S. : :cavachier:  :D
J'ai enclenché le mode turbo, ça va donner :hyperbon: :D

Scrat65

« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Entre le 8 et le 9 la courbe est légèrement plus pentue, donc ça paie sur la durée quand même.

Scrat65

Bonjour,

J'utilise régulièrement vos deux scripts pour gérer mes lâchers. Merci encore pour votre travail.

Je rencontre un problème avec le projet yoyo@home. Je n'arrivais pas à le faire fonctionner en utilisant les 5 minutes par défaut. J'ai alors rajouté ce projet dans la boucle case / esac avec une limite à 30 minutes soit 1800 secondes :
http://www.rechenkraft.net/yoyo/)
        limite="1800s"
form="$chcom[1][0-6][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;


Cela ne fonctionne pas non plus puisque des UT sont néamoins uploadées alors que script est lancé et que le terminal reste vide après la ligne En cours de surveillance... limite temps restant = 1800s

Qu'en pensez-vous ?
Merci pour votre aide
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Citation de: Scrat65 le 11 Septembre 2016 à 14:00
[...]
J'ai alors rajouté ce projet dans la boucle case / esac avec une limite à 30 minutes soit 1800 secondes :
http://www.rechenkraft.net/yoyo/)
        limite="1800s"
form="$chcom[1][0-6][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;

Bonjour,

Si vous souhaitez avoir 1800s, il faut modifier la ligne form, comme suit :

form="$chcom[1][0-7][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;

Cela signifie tout temps restant inférieur à 1799s ou inférieur à 999s ou inférieur à 99s ou enfin 9s.
Pouvez-vous vérifier lorsqu'une UT est sur le point d'être à 30min (1800s) restants, si celle-ci continue de calculer ET que le temps restant se remet à jour une seconde fois sous la barre des 30 min sans suspendre ?

Il est simplement possible que les 30 min choisies soient vraiment justes et que le petit oubli du "form" que j'ai indiqué soit suffisant.

À des fins de tests, vous pouvez mettre une attente très élevée pour vérifier immédiatement que le script suspens bien l'UT.

Tenez-moi au courant.

Scrat65

Merci pour votre très rapide réponse.

J'ai fait un test avec une limite de 3600 secondes soit 1 heure et en modifiant la ligne form comme ceci :
http://www.rechenkraft.net/yoyo/)
        limite="3600s"
form="$chcom[3][0-5][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;


Une UT sur le point d'être à 1h restante (1h 17 mn) a brusquement fait un bond de 60 % à 80 % ET son temps restant s'est remis à jour sous la barre de l'heure (00:38:55) sans pour autant être suspendue.

Je surveille les autres UT qui sont à 60 % avec un temps restant estimé de 01:17:51 et je lance de nouvelles UT pour lesquelles je suis sûr qu'elles sont en dessous de la limite d'une heure.... Je vous tiens au courant de la suite des opérations.
           
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Attention, cela ne prend pas entre 1000 et 2999.
Pensez à mettre une fourchette si un chiffre est supérieur à 1, en l'occurrence cela sera mieux :
form="$chcom[1-3][0-5][0-9][0-9]\.|$chcom[0-9][0-9][0-9]\.|$chcom[0-9][0-9]\.|$chcom[0-9]\." ;;

Scrat65

« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

JeromeC

A quoi bon prendre la vie au sérieux, puisque de toute façon nous n'en sortirons pas vivants ? (Alphonse Allais)


Scrat65

N'est-il pas ? :)

Avec une limite à 3600 secondes soit 1 heure, les UT yoyo@home (ecm) sont marquées en "Tâche suspendue par l'utilisateur" à 80 % avec un temps restant estimé à 00:37:34 ou 00:37:53 ; elles apparaissent bien listées dans le terminal.

Bonjour chez vous
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)

Maeda

Oui le vouvoiement n'était pas présent au début, c'est courtois et quitte à demander de l'aide, autant être poli :D

Pour revenir au problème : s'il suspens bien (après correction donc) avec une limite à 3600s, cela signifie qu'il y a un gros gap d'actualisation du temps restant, et confirme parfaitement ce que vous disiez :
Citation de: Vous, scrat65
Une UT sur le point d'être à 1h restante (1h 17 mn) a brusquement fait un bond de 60 % à 80 % ET son temps restant s'est remis à jour sous la barre de l'heure (00:38:55) sans pour autant être suspendue.

De plus :
Citation de: Maeda, moi
Attention, cela ne prend pas entre 1000 et 2999.
Cela explique la précédente erreur du form, dans votre précédent exemple, 1h17 = il ne suspendait pas (normal, 1h17 = 4620s > 3600s), et à l'actualisation suivante : 38m55s = 2335s, qui n'était pas pris à cause de l'erreur.

Là ça doit bien fonctionner. Si l'actualisation du temps restant est toujours à peu près la même, autant mettre un limite un peu plus élevée que cette différence (1h17 - 38m55s = ~38min), donc 45 min me paraît pas mal.

=> Dans le pire des cas = 46min restante (juste au-dessus de 45min), il ne suspens pas. A la prochaine actualisation (- 38min), il reste 8min => suspension = nickel.

N.B. : Je ne sais pas si c'est pareil chez tout le monde. Si ces durées sont fixes, je pourrais en effet intégrer cette 'case' dans le script de base.

Maeda

MAJ de resume_calc : on peut bypasser le délai (en appuyant sur ENTREE) afin de faire une désuspension immédiate + légères corrections

[AF>Libristes] cottesloe

Je n'avais pas vu ce post  :eek:
Ces scripts me parraissent TRES intéressants, surtout avant un raid, ou autre opération du genre...  :gniak:
Je vais essayé ça pour tester.
En tout cas très bonne idée.
Merci Maeda  :jap:  :jap:  :jap:

"Je sers la science et c'est ma joie" Disciplus Simplex
Écoutez la meilleure émission radio de la Terre, et rêver l'avenir encore un peu sur La Planète Bleue. www.laplanetebleue.com

Scrat65

Bonjour,

J'utilise vos deux scripts et e rencontre depuis peu le problème suivant quand je lance le script "resume_calc.sh" : une fois entré le PID qui correspond en fait au processus du script "suspend_calc.sh", celui ci n'est pas arrêté et le script "resume_calc.sh" reprend du début.

En ligne de commande, cela donne :
== Script suspend_calc détecté ==
6381 suspend_calc.sh Sat Feb 18 20:54:59 2017
Entrer le nombre correspondant pour tuer le processus à l'heure définie : (taper ENTREE pour ne rien tuer et continuer)
6381
Problème avec le PID : mauvaise saisie, on repart du début
> Choix du projet cible <


Je dois alors tuer le processus avec htop.
Merci d'avance de votre aide

Bonjour chez vous
« Nous sommes des nains juchés sur les épaules de géants ; nous voyons plus qu'eux, et plus loin ; non que notre regard soit perçant, ni élevée notre taille, mais nous sommes élevés, exhaussés, par leur stature gigantesque » Bernard de Chartres (XIIe siècle)