`qsub` verlässt" NotQueued "bei" blockierten Jobs "

454
Remi.b

Ich arbeite an einem Remote-Cluster ( westgrid> bugaboo ), auf dem ich Prozesse über eine .pbsDatei einreiche . Mein .pbssieht so aus

#!/bin/bash #PBS -l procs=1 #PBS -l walltime=100:00:00 #PBS -N SimulationName #PBS -m ea #PBS -M myname@gmail.com #PBS -l pmem=3000mb #PBS -t 1-100  echo "Starting run at: `date`"  R --vanilla --args $ < /Path/To/code.R  echo "Job finished with exit code $? at: `date`" 

, wobei PBS_ARRAYIDdie Werte 1 bis 100 für jeden spezifischen Job übernommen werden. /Path/To/code.Rist ein R-Wrapper für einige Binärdateien, die in geschrieben werden C. Wenn ich den Job übergebe

$ qsub mypbs.pbs 

alles scheint gut zu funktionieren. Simulationen laufen wie erwartet und ich habe die Ausgänge bekommen. Das Problem ist, dass ich manchmal während der Simulationen seltsame Jobs in den "blockierten Jobs" sehe.

$ showq -u myName  active jobs------------------------ JOBID USERNAME STATE PROCS REMAINING STARTTIME   0 active jobs 0 of 4516 processors in use by local jobs (0.00%) 428 of 436 nodes active (98.17%)  eligible jobs---------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME   0 eligible jobs   blocked jobs----------------------- JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME  30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27 30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16  2 blocked jobs   Total jobs: 2 

Die Job-ID stimmt tatsächlich mit denjenigen überein, die ausgeführt wurden (oder zuvor ausgeführt wurden), aber diese beiden gesperrten Jobs enthalten keine PBS_ARRAYIDzwischen den eckigen Klammern. Diese Jobs bleiben lange Zeit dort und ich kann sie nicht löschen

$ qdel 30004048[]  qdel: nonexistent job id: 30004048[] 

Ich kann auch keinen neuen Job einreichen (was das Hauptproblem ist), da ich die Nachricht erhalte

$ qsub mypbs.pbs  qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user) 

obwohl ich dieses Serverlimit NICHT verletze. Letztendlich verschwinden diese "NotQueued" -Jobs jedoch erst nach relativ langer Zeit.

Dieses Problem ist mir in der Vergangenheit schon mehrmals passiert, und bei allen Benutzern dieses Clusters bin ich der einzige, bei dem dieses Problem aufgetreten ist. Wenn Sie sich an den Support wenden, werden diese beiden Jobs normalerweise gelöscht, aber bis jetzt habe ich keine langfristige Lösung für dieses Problem erhalten.

  • Hast du eine Ahnung davon, was los ist?
  • Kann ich diese beiden seltsamen Jobs löschen?
  • Wie kann ich verhindern, dass solche Dinge erneut passieren?
1

0 Antworten auf die Frage