SSH Nicht erreichbar nach umfangreicher SCP-Übertragung

414
FrankObr

Kürzlich einen neuen i9-Server gebaut; es läuft ubuntu 14.

Dies ist in den letzten zwei Monaten viermal vorgekommen, und heute können experimentelle Daten eines Tages verloren gehen.

Folgendes ist passiert:

  • Server läuft seit einigen Wochen einwandfrei
  • 2 oder 3 Benutzer gleichzeitig zu Spitzenzeiten
  • Heute starte ich eine SCP-Übertragung (26 MB) vom Server zu einem Remote-Cluster in einem anderen Land (Server: Kanada, Cluster: Deutschland).
  • SCP erreicht 16% und die gesamte SSH-Kommunikation wird unterbrochen
  • Meine SSH-Sitzung reagiert nicht und kann keine neuen Sitzungen öffnen. andere Benutzer auf dem Server sehen die gleichen Symptome (nicht reagierende Sitzungen, neue Sitzungen können nicht geöffnet werden)
  • Die Datei ist im Cluster verfügbar, jedoch unvollständig / beschädigt

Ein Ping an den Server liefert: "Zielhost nicht erreichbar"

Um den Server wieder zum Laufen zu bringen, müssen wir die physische Maschine neu starten.

Irgendwelche Ideen, was dies verursacht und wie man es beheben kann? Dies ist seit dem Erstellen des neuen Servers viermal der Fall und jedes Mal, wenn er beim Übertragen von Dateien zwischen 20 und 30 MB vom Server an den Cluster aufgetreten ist. Obwohl dies nicht jedes Mal der Fall ist, wenn wir diese Dateien übertragen, geschieht dies in 5% der Fälle.

BEARBEITEN: Hier sind die Protokolle rund um die Zeit, zu der der SSH-Server nicht verfügbar ist (von var / log / syslog):

Sep 26 09:17:01 snail CRON[34116]: (root) CMD ( cd / && run-parts --report/etc/cron.hourly) Sep 26 10:17:01 snail CRON[34137]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) ^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Sep 26 12:36:14 snail rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="763" x-info="http:/ /www.rsyslog.com"] start Sep 26 12:36:14 snail rsyslogd: rsyslogd's groupid changed to 104 Sep 26 12:36:14 snail rsyslogd: rsyslogd's userid changed to 101 

Der Server wurde um 11:30 nicht mehr reagiert und ich habe ihn (physisch) um 12:36 Uhr neu gestartet. Die Protokolle erzählen uns also nichts über das, was um 11:30 Uhr geschah

** 'snail' ist der Name des Servers

1
20 MB ist für heutige Verhältnisse sehr klein. Haben Sie überprüft, ob größere Dateien den Fehler durchgängig passieren lassen? Was sehen Sie in den Systemprotokollen, wenn das Problem auftritt (`/ var / log / syslog`)? xenoid vor 5 Jahren 0
Die größte Datei, die ich derzeit auf dem Server habe, beträgt 106 MB. Ich habe es 10 mal ohne Probleme auf den deutschen Server übertragen. Was die Protokolle angeht, so füge ich meine Frage hinzu FrankObr vor 5 Jahren 0
Sieht aus wie `sshd` ziemlich hart abgestürzt ist, aus welchem ​​Grund auch immer. Die NUL-Zeichen im Syslog sind auch nicht das, was passieren sollte, daher ist möglicherweise auch etwas anderes abgestürzt. Dies kann eine beschädigte Binärdatei, fehlerhaftes RAM oder viele andere Gründe sein. Was Sie versuchen sollten: Holen Sie sich einen zweiten Kanal zum Server (z. B. einen zweiten `sshd` mit einem anderen Port), halten Sie eine Sitzung auf diesem Kanal offen und sehen Sie, ob Sie beim nächsten Absturz ein` dmesg` bekommen können. Versuchen Sie auch, das erste `sshd 'neu zu starten. dirkt vor 5 Jahren 0

0 Antworten auf die Frage