Suchen Sie nach einer tatsächlichen Erfahrung mit einem Ausfall von RAID 5 2-Laufwerken?

9386
Brian

Ich frage mich, ob jemand Erfahrung mit RAID 5 2-Laufwerkversagen bei großen Laufwerken hat?

Soweit ich es verstehe, ist die Theorie, dass bei großen 1-2 TB-Laufwerken, wenn ein Laufwerk im RAID-Set ausfällt, alles neu erstellt werden muss. Daher trifft es alle anderen Laufwerke sehr hart, und die Wahrscheinlichkeit eines weiteren Ausfalls steigt. Besonders wenn die Laufwerke aus derselben Produktionscharge stammen. Wenn Sie ein anderes Laufwerk verlieren, verlieren Sie alle Daten.

Dies wird normalerweise nach der Anweisung "RAID is not backup" erklärt, mit der ich einverstanden bin.

Die Theorie davon macht Sinn und ich verstehe es, aber passiert das wirklich?

15
Leider haben wir gerade eine neue Frage mit Live-Erfahrung dazu bekommen. :( http://superuser.com/questions/516844/degraded-raid5-and-no-md-superblock-on-one-of-remaining-drive Hennes vor 11 Jahren 0

10 Antworten auf die Frage

15
Paul McMillan

Ja, mir ist es passiert. Ein Satz von 4 (Consumer Grade) WD 500-Laufwerken lief im Verlauf von etwa einer Woche schlecht. Ich habe das erste langsam ersetzt, das Array nicht offline geschaltet und alle meine Daten verloren, als das zweite fehlgeschlagen ist. Die verbleibenden zwei guten habe ich wiederverwendet, und einer davon ist innerhalb des nächsten Monats gescheitert. Sie wurden alle richtig gekühlt und gepflegt. Ich kann nur sagen, dass ich jetzt die Rhetorik "Bad Batch" glaube.

In einem separaten Vorfall hatte ich 3 separate Laufwerke verschiedener Marken und Modelle versagten innerhalb eines Monats voneinander, obwohl ich ziemlich sicher bin, dass der Grund für das Versagen auf eine falsche Belüftung zurückzuführen ist. Kochen Sie nicht Ihre Antriebe!

Als Folge, haben Sie einen Ersatz für herum, wenn eine Fahrt schlecht geht. Beachten Sie auch die leise Korruption. Es ist leicht, Daten auf einer Festplatte zu verlieren, die nur so funktioniert, als würden sie funktionieren. Paul McMillan vor 14 Jahren 3
Dies ist ein weiterer Grund, warum Sie keine Laufwerke installieren sollten, die alle aus demselben Batch in einem RAID-Array stammen - sie haben korrelierte Ausfallzeiten (wissen Sie, wie die Ausfallraten von tranchierten subprime-besicherten hypothekarischen Wertpapieren). Andrew Mao vor 9 Jahren 0
4
AdamB

Das ist mir tatsächlich passiert, aber es war nicht die üblichste Art und Weise, wie eine Festplatte ausfallen würde. Ich hatte 4 500 GB externe SATA-Laufwerke in RAID 5. Sie wurden an einen billigen alten IBM-Server angeschlossen. Das ganze Setup war unter der Treppe versteckt und eines Tages entweder eine Ratte oder ein Hase, aber etwas, das durch einige Stromkabel gekaut wurde, und zwei Laufwerke waren kurzgeschlossen. Alle Laufwerke befanden sich in billigen externen Gehäusen, also hätte ich nicht so überrascht sein sollen.

3
Troggy

Fragen Sie, ob Sie 2 Laufwerke hintereinander verlieren können? Sicher kann alles passieren. Raid 5 ermöglicht eine große Verfügbarkeit und Leistungssteigerung beim Datenzugriff, Raid 5 sichert jedoch nichts. Es hilft lediglich, die Verwendung Ihrer Daten aufgrund eines Hardware-Verlusts eines einzelnen Laufwerks zu verhindern. Es ist keine Kopie Ihrer Daten. Sie können keine alte Kopie, eine alte Revision oder einfach nur eine Kopie Ihrer aktuellen Arbeit wiederherstellen. Schützt auch nicht vor Datenbeschädigung. Es gibt mehr Dinge, die schief gehen könnten, als einfach ein Laufwerk zu verlieren. Viren könnten alle Ihre Daten beschädigen, die kleine Schwester mag es, wenn der Müll auf Ihrem Desktop voll und leer wird, wenn sie Dateien darin wirft, dummer Freund lässt eine Limonade auf Ihrem Computer usw.

Denken Sie auch daran, dass Sie den Festplatten-RAID-Controller verlieren können. Sie können das Array nicht einfach auf einen anderen Controller verschieben. Normalerweise muss man genau das gleiche verwenden und trotzdem kann etwas schief gehen. Einige RAID-Controller speichern Informationen an Bord und andere senden Konfigurationsinformationen an das angeschlossene Array. Es ist ein Glücksspiel, wenn diese Situation auftritt.

Dieselbe Frage bei SF: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

Benötigen Sie mehr Gründe?

EDIT: Ihre Idee ist richtig und könnte jedem passieren. Ich persönlich habe nicht mehr als ein Laufwerk ausgefallen gesehen, aber ich habe einige gesehen, die sehr nahe beieinander waren. Keiner von ihnen befand sich in diesem Fenster des Wiederaufbaus, aber technisch ist dies ein Risiko. Aber Sie haben ein Backup für den Fall, dass etwas passiert, richtig? Haha. Manche Leute lernen manchmal den harten Weg. Raid 6 bringt es mit doppelter Parität auf die nächste Stufe und kann bis zu 2 Laufwerke verlieren. Bei jedem RAID-Setup steigt die Wahrscheinlichkeit eines Fehlers mit der Größe (Anzahl der Laufwerke) und der Komplexität des Arrays. Mehr Laufwerke = mehr mögliche Fehler

Entschuldigung, ich verstehe das alles und frage nur, ob es jemandem passiert ist und wie das Szenario war. Brian vor 14 Jahren 0
3
David Mackintosh

Sie haben recht. Wenn Sie in einem RAID-5-Szenario eine Festplatte verlieren und anschließend neu erstellen, muss das System jeden Sektor aller überlebenden Laufwerke im RAID-Satz erfolgreich lesen. NetApp behauptet, dass in einigen Situationen (sie können RAID-Sets mit bis zu 28 Laufwerken verschiedener Art ausführen) Ihre Chancen, einen zweiten Fehler zu erzielen, bis zu eins von zehn betragen. Sie machen also eine "Dual-Parity", von der ich glaube, dass sie mit RAID-6 zusammenhängt.

Je mehr Festplatten Sie in einem RAID-Set haben und je größer sie sind, desto wahrscheinlicher ist es, dass Sie ein Problem haben. Bei einem kleinen RAID-Set (3-5 Festplatten) hat sich die Wahrscheinlichkeit gegenüber RAID-5 wahrscheinlich nicht zu sehr verändert.

Aber ich mache Raid-DP immer auf NetApps, wo ich kann.

+1 Ich hatte nie darüber nachgedacht, dass jeder Sektor aller überlebenden Triebe erfolgreich gelesen werden muss. AaronLS vor 14 Jahren 0
2
Stephen Veiss

Keine persönliche Erfahrung, aber ich habe den Schreien derjenigen zugehört, denen es passiert ist. Jedes Speichersystem - sei es ein einzelnes Laufwerk, ein USB-Stick, ein Band, eine große RAID-Installation oder Amazon S3 - wird möglicherweise auf die für Sie ungünstigste Weise ausfallen. Ein zweiter Fehler beim Wiederaufbau eines RAID 5-Sets ist nur eine der Möglichkeiten.

Nebenbei wurde die Unterstützung für Triple-Parity-RAID vor einigen Tagen in OpenSolaris integriert. Daher ist mindestens ein Hersteller der Meinung, dass es sich lohnt, zwei zusätzliche Fehler während des Parity-RAID-Wiederaufbaus zu berücksichtigen.

1
Axxmasterr

Das passiert tatsächlich tatsächlich. Aus diesem Grund verfügen die Storage-Lösungen von NetApp über eine Implementierung von RAID 6. Dies ist nur für den Fall, dass Sie während der Neuerstellung ein zweites Laufwerk verlieren.

Sie können die Wahrscheinlichkeit eines Ausfalls unter Verwendung der Standardformeln auf der folgenden Seite aufgelisteten berechnen Link - Text, wie Sie größere und eine größere Anzahl von Datenlaufwerke zu skalieren, die Wahrscheinlichkeit, dass nur ein solcher Ausfall nach oben geht. Wenn Sie über genügend Festplatten verfügen, können Sie diese Nummer in die Problemzone verschieben, wenn Sie ein RAID 5 mit einer großen Anzahl von Datenvolumes verwenden.

Ich kann Ihnen aus eigener Erfahrung sagen, dass innerhalb eines kritischen Zeitraums durchaus zwei Laufwerksausfälle im selben Array auftreten können. Raid 6 rettete mich vor der Wiederherstellung aus dem Backup.

Hoffe das hilft

1
camster342

Hier ist ein Szenario: Ein Laufwerk schlägt in Ihrem RAID5-Array fehl, aber Ihr Ersatzgerät saß entweder schon herum oder die Bestellung für die neue Festplatte kam schließlich durch. Sie (oder vielleicht ein entfernter Diener) gehen mit frischem Antrieb in die Hand, um den fehlerhaften zu ersetzen. Wegen schlechter Beschriftung, Müdigkeit oder schlichter Dummheit wird eines der verbleibenden guten Laufwerke anstelle des fehlerhaften ausgeworfen ... und dann ist Ihr zweiter Fehler.

1
Jared

Ich habe dies mehrmals gesehen, während ich im Datenwiederherstellungsgeschäft tätig bin. Und ja, sie scheitern oft gleichzeitig, aber ich glaube nicht, dass dies irgendetwas zu tun hat, wenn sie notwendigerweise gebaut wurden, da ich auch gesehen habe, dass dies mit nicht übereinstimmenden Laufwerken der Fall ist. Am häufigsten tritt diese Art von Ausfall kurz nach einem Gewitter, einem Stromstoß oder einem Stromausfall auf.

In der Regel werden durch die Überspannung die Laufwerke oder der RAID-Controller beschädigt, und innerhalb weniger Tage versagen sie. Ich arbeite gerade an der Wiederherstellung eines Arrays, bei dem nach einem Stromausfall zwei Laufwerke gleichzeitig ausfallen. (sieht momentan hoffnungslos aus)

Kleiner Tipp: Überspannungsschutz schützt Ihre Ausrüstung nicht wirklich. Verbinden Sie Ihren RAID 5 immer mit einer guten USV. Ich habe noch nie gesehen, dass dies passiert, wenn das Array auf einer USV war.

1
Sfynx

Das versehentliche Herausziehen eines zweiten guten Laufwerks aus einem Single-Parity-Satz sollte das Array bei einer guten RAID-Implementierung nicht zerstören. Ich weiß, dass ZFS RAID-Z alle E / A im Array einfriert, bis Sie es wieder online stellen.

0
Mathias

Ein anderes Szenario: Ein entfernter Diener wird angewiesen, das Sicherungsband aus dem Laufwerk zu holen. Sie geht zum Rack und zieht das Band nicht aus dem Laufwerk heraus ... aber 2 (zwei) HDDs werden gleichzeitig aus den Laufwerksschächten herausgenommen und voila: 2 Laufwerksausfall.

Sie denken, das ist weit hergeholt? Nun, ich bin jetzt bei einem Kunden, der genau das getan hat und jetzt einen Serverumbau betrachtet.

Gut, dass sie das Band, das sich tatsächlich im Bandantrieb befand, oder so weiter nicht verbrannt hat ;-)