Wie verwende ich SLURMs --dependency = expand:<jobid> korrekt </jobid>

354
hepcat72

Ich habe einen Slurm-Job von 5 abgeschlossen, der 19 Stunden gelaufen ist, und ich habe Bedenken, dass er die Wandzeit erreicht, bevor er fertig ist. Ich bin nicht der Administrator und es ist das Wochenende, also möchte ich diese Funktion ausprobieren, die ich kürzlich in diesem Beispiel entdeckt habe:

$ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash salloc: Granted job allocation 65543 

Wenn ich dies jedoch versuche, erhalte ich eine Fehlermeldung:

$ salloc --qos=1wk --dependency=expand:14602965 salloc: error: Job submit/allocate failed: Job dependency problem 

Was mache ich falsch?

AKTUALISIEREN:

Ich konnte den Befehl erfolgreich ausführen, als ich gerade versuchte, die Wandzeit zu bearbeiten:

$ salloc --job-name freebayes.commands3-extend -t 7-00:00:00 --mem 387000 --dependency=expand:14602965 salloc: Granted job allocation 14604022 

Ich habe jedoch festgestellt, dass salloc in meiner aktuellen Shell ein laufender Prozess ist:

$ ps PID TTY TIME CMD 43140 pts/1 00:00:00 tcsh 43284 pts/1 00:00:00 salloc 43286 pts/1 00:00:00 tcsh 43321 pts/1 00:00:00 ps 

Also ging ich davon aus, dass ich es mit nohup (oder in screen / tmux) ausführen musste, um mich abzumelden. Ich habe den Prozess gescannt und getötet und ihn mit nohup erneut angezeigt. Ohne die Möglichkeit, die Qos zu ändern, gehe ich davon aus, dass mein Job getötet wird. Ich hatte sowohl mit -t als auch mit --qos versucht, bekam aber den gleichen Fehler. Mein Verdacht ist, dass ich --dependency = expand nicht verwenden kann, um den Job zu ändern, da ich --qos nicht explizit angegeben habe. Ich habe die Standard-Qos ("1day") verwendet.

Meine Zusatzfrage lautet: Muss ich screen / tmux / nohup verwenden, wenn ich versuche, den Job zu ändern?

Gibt es irgendwelche Informationen in dieser Ausgabe, die mir sagen, ob es gelingen wird, den Job zu erweitern oder nicht ?:

 JOBID PARTITION MIN_MEMOR TIME CPUS PRIORITY START_TIME QOS TIME_LIMIT NAME 14602965 main 387000 20:05:37 3 0.0000038153 2018-11-02T13:36:30 1day 1-00:00:00 freebayes.commands3 14604022 main 387000 2:53 3 0.0000018135 2018-11-03T09:39:14 1day 3:57:00 freebayes.commands3-extend 
0

0 Antworten auf die Frage