OK. Ich habe eine ziemlich triviale Lösung für dieses Problem gefunden, obwohl ich nicht glaube, dass es eine ist, die immer funktionieren wird.
Um einen solchen Zombie-Prozess zu eliminieren, gehen Sie wie folgt vor:
- Starten Sie den SLURM Account Manager über
sacctmgr
als Benutzer mit einemOperator
Account (oderroot
). - Suchen Sie nach Durchlaufjobs, indem Sie
list runawayjobs
in dersacctmgr
Eingabeaufforderung ausgeben . - Wenn das System einen oder mehrere Jobs ohne Enddatum erkennt, dh verwaiste Jobs, werden Sie gefragt, ob Sie das Problem beheben möchten. Bestätigen Sie mit
Y
.
Diese Schritte haben mein Problem behoben, nachdem der Job sacct
für 9 Tage in den Berichten ausgeführt wurde.