`qsub` verlässt" NotQueued "bei" blockierten Jobs "
Ich arbeite an einem Remote-Cluster ( westgrid> bugaboo ), auf dem ich Prozesse über eine .pbs
Datei einreiche . Mein .pbs
sieht so aus
#!/bin/bash #PBS -l procs=1 #PBS -l walltime=100:00:00 #PBS -N SimulationName #PBS -m ea #PBS -M myname@gmail.com #PBS -l pmem=3000mb #PBS -t 1-100 echo "Starting run at: `date`" R --vanilla --args $ < /Path/To/code.R echo "Job finished with exit code $? at: `date`"
, wobei PBS_ARRAYID
die Werte 1 bis 100 für jeden spezifischen Job übernommen werden. /Path/To/code.R
ist ein R-Wrapper für einige Binärdateien, die in geschrieben werden C
. Wenn ich den Job übergebe
$ qsub mypbs.pbs
alles scheint gut zu funktionieren. Simulationen laufen wie erwartet und ich habe die Ausgänge bekommen. Das Problem ist, dass ich manchmal während der Simulationen seltsame Jobs in den "blockierten Jobs" sehe.
$ showq -u myName active jobs------------------------ JOBID USERNAME STATE PROCS REMAINING STARTTIME 0 active jobs 0 of 4516 processors in use by local jobs (0.00%) 428 of 436 nodes active (98.17%) eligible jobs---------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME 0 eligible jobs blocked jobs----------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME 30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27 30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16 2 blocked jobs Total jobs: 2
Die Job-ID stimmt tatsächlich mit denjenigen überein, die ausgeführt wurden (oder zuvor ausgeführt wurden), aber diese beiden gesperrten Jobs enthalten keine PBS_ARRAYID
zwischen den eckigen Klammern. Diese Jobs bleiben lange Zeit dort und ich kann sie nicht löschen
$ qdel 30004048[] qdel: nonexistent job id: 30004048[]
Ich kann auch keinen neuen Job einreichen (was das Hauptproblem ist), da ich die Nachricht erhalte
$ qsub mypbs.pbs qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
obwohl ich dieses Serverlimit NICHT verletze. Letztendlich verschwinden diese "NotQueued" -Jobs jedoch erst nach relativ langer Zeit.
Dieses Problem ist mir in der Vergangenheit schon mehrmals passiert, und bei allen Benutzern dieses Clusters bin ich der einzige, bei dem dieses Problem aufgetreten ist. Wenn Sie sich an den Support wenden, werden diese beiden Jobs normalerweise gelöscht, aber bis jetzt habe ich keine langfristige Lösung für dieses Problem erhalten.
- Hast du eine Ahnung davon, was los ist?
- Kann ich diese beiden seltsamen Jobs löschen?
- Wie kann ich verhindern, dass solche Dinge erneut passieren?
0 Antworten auf die Frage
Verwandte Probleme
-
9
Was ist der Unterschied zwischen den Befehlen "su -s" und "sudo -s"?
-
4
Gutes freies Ubuntu Server-VMWare-Image benötigt
-
4
Was sind die Unterschiede zwischen den großen Linux-Distributionen? Werde ich es merken
-
2
Begrenzung der CPU-Auslastung für Flash in Firefox?
-
2
Wie kann ich mein Mikrofon unter Debian GNOME zum Laufen bringen?
-
2
Conky-Setups - Beispiele / Ideen?
-
3
Was sind die Unterschiede zwischen Linux Window Managern?
-
2
ThunderBird / Lichtsynchronisation mit SE k770i
-
4
Linux-Dateisystem
-
6
Vollbild-Flash langsam in KDE 4