SSH-Fehler: Temporärer Fehler bei der Namensauflösung bei der MPI-Ausführung

18240
PVGM

Ich habe 6 Computer (jeweils 4 Kerne und identische Hardwares) mit statischen IP-Adressen und muss NAMD-Computerprogramme mit OpenMPI parallel ausführen. Also ich

  1. Installierte SSH und OpenMPI (auf der Mint 18)
  2. Platzieren Sie die ausführbare Datei auf allen Computern in / bin
  3. Passwortlose SSH einrichten (Ich kann auf alle 4 Slave-Computer ohne Passwort vom Master-Computer aus zugreifen)

Es funktioniert jedoch auf 3 Computern und für andere gibt es

 mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log  ssh: Could not resolve hostname slave32: Temporary failure in name resolution ssh: Could not resolve hostname slave27: Temporary failure in name resolution  [master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch  [master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages  

mein / etc / hosts des Master-Computers sieht so aus

127.0.0.1 localhost  #127.0.1.1 master  172.18.112.78 master  #Cluster Host Names  172.18.112.75 slave25  172.18.112.76 slave26  172.18.112.77 slave27  172.18.112.82 slave32  172.18.112.81 slave31  

ssh slavexx funktioniert gut

mein mpi-hostfile sieht so aus

localhost slots=4  slave25 slots=4  slave26 slots=4  slave27 slots=4  slave31 slots=4  slave32 slots=4  

slave25 und slave26 funktionieren einwandfrei (max 12 Prozessoren, mpiexec -np 16), aber mehr als das gibt ssh: Could not resolve hostname slavexx: Temporary failure in name resolutionFehler. Es ist so abgenutzt, da ich ping, ssh alle 5 Computer ohne Probleme.

hat jemand eine Idee, dieses Problem zu lösen?

und eine andere Sache, diese Maschinen werden geklont. Also habe ich in letzter Zeit den Hostnamen des Computers geändert und SSH und OpenMPI neu installiert.

UPDATE: Ich habe gerade herausgefunden, dass nur die ersten drei im mpi-hostfileMPI verwendeten laufen. für andere über Error Pops!

0
Können Sie die anderen Hosts anpingen, mit denen Sie Probleme haben? Sie müssen sicher sein, dass ihre Hostnamen aufgelöst werden können. Können Sie auch nach Ihrer Datei /etc/resolv.conf suchen? Versuchen Sie, den DNS-Server dort zu entfernen, so dass nur Ihre hosts-Datei verwendet wird Tim Connor vor 7 Jahren 0
Ja, ich kann andere anpingen und habe die Lösung gefunden! Ich muss kennwortlose SSH auf allen Rechnern aktivieren, einschließlich der Slave-Maschinen. Es löst das Problem. PVGM vor 7 Jahren 0

0 Antworten auf die Frage