Wie verwende ich SLURMs --dependency = expand:<jobid> korrekt </jobid>
Ich habe einen Slurm-Job von 5 abgeschlossen, der 19 Stunden gelaufen ist, und ich habe Bedenken, dass er die Wandzeit erreicht, bevor er fertig ist. Ich bin nicht der Administrator und es ist das Wochenende, also möchte ich diese Funktion ausprobieren, die ich kürzlich in diesem Beispiel entdeckt habe:
$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash salloc: Granted job allocation 65543
Wenn ich dies jedoch versuche, erhalte ich eine Fehlermeldung:
$ salloc --qos=1wk --dependency=expand:14602965 salloc: error: Job submit/allocate failed: Job dependency problem
Was mache ich falsch?
AKTUALISIEREN:
Ich konnte den Befehl erfolgreich ausführen, als ich gerade versuchte, die Wandzeit zu bearbeiten:
$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965 salloc: Granted job allocation 14604022
Ich habe jedoch festgestellt, dass salloc in meiner aktuellen Shell ein laufender Prozess ist:
$ ps PID TTY TIME CMD 43140 pts/1 00:00:00 tcsh 43284 pts/1 00:00:00 salloc 43286 pts/1 00:00:00 tcsh 43321 pts/1 00:00:00 ps
Also ging ich davon aus, dass ich es mit nohup (oder in screen / tmux) ausführen musste, um mich abzumelden. Ich habe den Prozess gescannt und getötet und ihn mit nohup erneut angezeigt. Ohne die Möglichkeit, die Qos zu ändern, gehe ich davon aus, dass mein Job getötet wird. Ich hatte sowohl mit -t als auch mit --qos versucht, bekam aber den gleichen Fehler. Mein Verdacht ist, dass ich --dependency = expand nicht verwenden kann, um den Job zu ändern, da ich --qos nicht explizit angegeben habe. Ich habe die Standard-Qos ("1day") verwendet.
Meine Zusatzfrage lautet: Muss ich screen / tmux / nohup verwenden, wenn ich versuche, den Job zu ändern?
Gibt es irgendwelche Informationen in dieser Ausgabe, die mir sagen, ob es gelingen wird, den Job zu erweitern oder nicht ?:
JOBID PARTITION MIN_MEMOR TIME CPUS PRIORITY START_TIME QOS TIME_LIMIT NAME 14602965 main 387000 20:05:37 3 0.0000038153 2018-11-02T13:36:30 1day 1-00:00:00 freebayes.commands3 14604022 main 387000 2:53 3 0.0000018135 2018-11-03T09:39:14 1day 3:57:00 freebayes.commands3-extend
0 Antworten auf die Frage
Verwandte Probleme
-
0
Doppeleinträge für den Befehl "slurm sacct" entfernen: "extern"
-
1
SLURM-Konfiguration: cons_res mit CR_Core kann keine Ressourcen zuordnen oder Jobs werden im CG-Stat...
-
1
Slurm erlaubt Authentifizierung ohne Zuordnung
-
1
Ansys Remote Solver mit SLURM-Cluster
-
0
Slurm-Initialisierung fehlgeschlagen
-
0
Ansys RSM mit SLURM-Cluster
-
1
Einen SLURM-Zombie-Job beenden