Habe ich gerade beim Hot-Plugging eines Laufwerks versagt?

1738
Remolod Domelor

Ich habe einen kleinen Heimserver, der um ein Lian Li PC-Q25-Gehäuse mit einer SATA-Backplate aufgebaut ist, die sich selbst als hot pluggable bewirbt. Das Motherboard ist Asus P8H77-I. Ich habe 4 SATA-Laufwerke an die Backplate angeschlossen - zwei Paare, die in RAID1-Arrays integriert sind. Das System läuft auf Centos 6.3 x86_64.

Eines der Laufwerke ist ausgefallen, daher habe ich die empfohlene Prozedur ausgeführt: Synchronisiert, aus dem Array entfernt, ordnungsgemäß heruntergefahren und herausgezogen. Keine Katastrophe hier, ich konnte hören, wie das Laufwerk herunterfuhr und im dmesg-Protokoll keine Fehler auftraten.

Nun ging ich davon aus, dass nach dem SATA-Standard die versetzten Pins im Laufwerk ein sicheres Plug-In ohne plötzlichen Stromstoß gewährleisten würden. Ich drückte das Laufwerk ein und konnte die anderen Laufwerke langsamer fahren und für einen kurzen Moment mit dem Kopf klicken.

Die Überprüfung des Dmesg-Protokolls ergab Folgendes:

ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen ata3.00: exception Emask 0x10 SAct 0x3ff007ff SErr 0x4890000 action 0xe frozen ata3.00: irq_stat 0x08400040, interface fatal error, connection status changed ata3: SError: { PHYRdyChg 10B8B LinkSeq DevExch } ata3.00: failed command: WRITE FPDMA QUEUED ata3.00: cmd 61/80:00:3f:81:ca/00:00:00:00:00/40 tag 0 ncq 65536 out res 40/00:54:bf:81:ca/00:00:00:00:00/40 Emask 0x10 (ATA bus error) ata3.00: status: { DRDY } 

(Die letzten ata3.00-Nachrichten werden ungefähr 20 Mal mit verschiedenen Nummern und demselben Text wiederholt.)

Die letzten Zeilen sind:

ata3.00: status: { DRDY } ata3: hard resetting link ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata2: irq_stat 0x00400040, connection status changed ata2: SError: { HostInt PHYRdyChg 10B8B DevExch } ata2: hard resetting link ata1: irq_stat 0x00400040, connection status changed ata1: SError: { PHYRdyChg 10B8B DevExch } ata1: hard resetting link ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) ata1.00: configured for UDMA/133 ata1: EH complete ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300) ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata2.00: configured for UDMA/133 ata2: EH complete ata3.00: configured for UDMA/133 ata3: EH complete 

Auch mein Logwatch hat folgende Änderungen in SMART-Daten gemeldet:

/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] : Prefailure: Raw_Read_Error_Rate (1) changed to 100, Prefailure: Reallocated_Sector_Ct (5) changed to 200, Prefailure: Spin_Up_Time (3) changed to 100, Usage: Seek_Error_Rate (7) changed to 200,  /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] : Usage: Calibration_Retry_Count (11) changed to 100, Usage: Load_Retry_Count (223) changed to 100,  Device: /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT], Self-Test Log error count increased from 0 to 1 

Am Folgetag waren im SMART-Protokoll noch verdächtige Einträge enthalten:

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-0:0:0:0 [SAT] : Usage: Seek_Error_Rate (7) changed to 200,  /dev/disk/by-path/pci-0000:00:1f.2-scsi-1:0:0:0 [SAT] : Usage: Seek_Error_Rate (7) changed to 200,  /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] : Usage: Multi_Zone_Error_Rate (200) changed to 200,  /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] : Usage: Throughput_Performance (2) changed to 56,  /dev/disk/by-path/pci-0000:00:1f.2-scsi-4:0:0:0 [SAT] : Prefailure: Raw_Read_Error_Rate (1) changed to 116, 117, Usage: ECC_Uncorr_Error_Count (195) changed to 116, 117, 

Anscheinend hat das Sata-Backend das Laufwerk also sofort brutal eingeschaltet, was möglicherweise dazu geführt hat, dass die Spannung kurzzeitig abfällt.

Mein Fehler war vielleicht, alle vier Laufwerke in dieselbe PSU-Schiene zu stecken und zu erwarten, dass die PSU (wenn auch eine 800-Watt-Seasonic mit guten Spezifikationen) mit dem plötzlichen Stromverbrauch fertig wird.

Die SATA-Backplate verfügt über zwei Molex-Anschlüsse auf der Rückseite, um die Stromversorgung zu ermöglichen. Ich werde sie an separate Netzteilschienen anschließen, um eine stabilere Ausgangsleistung zu gewährleisten.

Gibt es eine Möglichkeit, zu verhindern, dass das Laufwerk sofort hochfährt, wenn ich es wieder in das Laufwerkset stecke?

Habe ich möglicherweise auch nur die Laufwerke beschädigt (ist dies aus diesen Protokollmeldungen ersichtlich)?

Vielen Dank!

7
Power is a binary status - on or off. I don't believe hot swap infers some type of "slow" power up. uSlackr vor 11 Jahren 1

1 Antwort auf die Frage

1
Yann Sagon

Eine Festplatte zieht etwa 11 Watt aus. Wenn Ihr Netzteil 800 Watt hat, sollten Sie also kein Problem haben.

Einige große Festplatten können die Festplatte nacheinander einschalten, um ein mögliches elektrisches Problem zu vermeiden. Dies liegt jedoch am Controller.

Haben Sie versucht, den Server neu zu starten (kalter Neustart), ist dann alles gut? Wie Sie sagten, haben Sie gehört, dass die anderen sich nach unten drehen und mit dem Kopf klicken. Das ist natürlich nicht normal. Möglicherweise ist die Hotplug-Backplane schlecht hergestellt und während des Hot-Plug ist ein Kurzschluss aufgetreten.