Wie werden Daten wiederhergestellt, wenn ein RAID-Array ausfällt?

346
udi

Ich denke an die Verwendung von Hardware-RAID (Level 5 und 10) auf meinen Computern. Was ich nicht verstehe ist, wie Daten wiederhergestellt werden, wenn etwas schief geht und das RAID-Array ausfällt (RAID-Kartenproblem oder sonstiges).

Wenn Standalone-Festplatten verwendet werden, ist der Prozess sehr unkompliziert. Was tun jedoch, wenn ein RAID-Array ausfällt? und wie werden Daten von einem RAID-Array wiederhergestellt. da wir das Laufwerk nicht einfach herausnehmen und in einen anderen Computer einstecken können.

2
Im Allgemeinen lohnt es sich nicht, sich die Mühe zu machen. Sie erstellen einfach ein neues RAID-Array aus einem Backup. Wenn Sie RAID verwenden, ist es vermutlich Ihr Ziel, die Ausfallzeiten zu minimieren, und die Zeitverschwendung für die Wiederherstellung schadet Ihnen mehr als es hilft. David Schwartz vor 8 Jahren 1

3 Antworten auf die Frage

3
Vojtech

Wenn ein Laufwerk in einem HW-RAID stirbt, ziehen Sie es heraus und stecken ein neues ein. Es erfolgt eine automatische Neuerstellung. In einigen Fällen müssen Sie möglicherweise die GUI oder CLI der Karte verwenden, um die Karte darüber zu informieren, dass ein Laufwerk ersetzt wurde. Das RAID ist während der gesamten Übung natürlich betriebsbereit.

Wenn Ihre RAID-Karte stirbt, ist das viel schwieriger. Sie sollten einen Ersatz haben. Wenn Sie dies nicht tun, kaufen Sie eine von Ihrem Lieferanten. Wenn es nicht mehr in Produktion ist, suchen Sie bei eBay verzweifelt nach einem gebrauchten.

Wenn Sie nicht einmal ein gebrauchtes finden können, müssen Sie das Format der Festplatte zurückdrehen und Code schreiben, um es wiederherzustellen. Sie können Glück haben und finden, dass es in einem ziemlich normalen Format gespeichert ist. Entweder machen Sie es selbst oder zahlen viel an ein Datenwiederherstellungsunternehmen.

In diesem Licht ist ein SW-RAID zukunftssicherer, da die Software selbst im Laufe der Zeit nicht kaputt geht und Hardware-Hardware leicht ausgetauscht werden kann.

SW RAID5 kann jedoch nicht vollständig ausfallsicher gemacht werden. Das ist der große Vorteil von HW-RAIDs: Sie können mit batteriegepuffertem Speicher ausgestattet werden und sind somit absolut sicher, wenn Sie den Stecker ziehen.

Ein weiterer Faktor: Meiner Erfahrung nach verursacht ein Bluescreen (oder ein anderes unsachgemäßes Herunterfahren) mit Software-Raid einen Fehler und ein Wiederherstellen des Laufwerks, auch wenn keine Schreibvorgänge anstehen. Loren Pechtel vor 8 Jahren 0
Ja, ein Systemabsturz oder das Drücken der Reset-Taste beschädigt das SW-RAID-Array genauso wie ein Stromausfall. Die einzige Möglichkeit, mit der das SW-RAID ein hartes Herunterfahren bewältigen kann, besteht darin, alle Schreibvorgänge vollständig zu serialisieren, wobei der gesamte Leistungsgewinn durch die Erstellung mehrerer Laufwerke beeinträchtigt wird. Es gibt einige Tricks, die von den intelligenteren SW-RAIDs, wie dem Linux-MDRAID, einschließlich einer Write-Intent-Map, um den Schaden zu mildern und nur einen sehr kleinen Teil des Arrays wieder aufzubauen. HW-RAIDs bewältigen das Herunterfahren des Systems ordnungsgemäß. Vojtech vor 8 Jahren 0
Hier ist ein wichtiger Punkt, den Sie bedenken sollten: ** RAID ist keine Sicherungslösung **. Wiederholen Sie das 10-mal, damit es einsinkt. (Ich sage nicht, dass Sie dieses Missverständnis hatten - ich denke nur, es muss wiederholt werden.) Der Zweck von RAID ist zweifach. 1. Leistungssteigerung. 2. Schutz vor einem Festplattenausfall (Fehlertoleranz). Wenn Sie ein RAID-Setup haben, müssen Sie immer noch Sicherungen durchführen. Wie Vojtech sagte: Wenn Sie eine alte RAID-Karte haben, die nicht leicht austauschbar ist, könnten Sie ohne Backup im Wasser sein. Charles Burge vor 7 Jahren 0
0
Tomuo

Ihre Frage bezieht sich auf die HW-Raid-Recovery, also schauen Sie sich die Funktionen an, die die HW-Raid-Karte / der Controller für Sie bereitstellt.

  1. ein BIOS, in das Sie vor dem Booten des Betriebssystems einsteigen können. Die Konfiguration kann hier vorgenommen werden.
  2. Ein Prozessor oder ein anderer "Accellerator", der die Arbeit für die Verwaltung des Überfalls übernimmt und entscheidet, wohin Lese- / Schreibvorgänge geleitet werden.
  3. Ein Schema zum Ermitteln, welche physische Festplatte zu welchem ​​Teil des RAID gehört.
  4. Eine Möglichkeit, Sie über den Status des RAID zu informieren.

Ihre RAID-Karte wird mit Treibern und Software geliefert, die unter Ihrem Betriebssystem unterstützt wird und die Konfiguration und Statusverwaltung ermöglicht, ohne dass das BIOS neu gestartet werden muss.

Bei Serverhardware befinden sich die Laufwerke selbst auf Hot-Swap-Schlitten mit zusätzlichen LEDs. Diese geben Ihnen das physische Feedback, wenn der Controller ein Problem mit dem RAID feststellt.

Bei Desktop-Computern sind Ihre Laufwerke fest mit der RAID-Karte oder dem Motherboard verbunden.

Der Treiber und die Software in Ihrem Betriebssystem können dies ebenfalls feststellen und Sie auf andere Weise benachrichtigen (E-Mail usw.).

Wenn ein Laufwerk fehlerhaft ist, hört der Controller auf, zu lesen und zu schreiben, und verlässt sich auf die verbleibenden Laufwerke, um die Daten bereitzustellen. Dies wird als herabgesetzter Zustand bezeichnet. Sie arbeiten immer noch, aber ein weiterer Fehler bringt Sie in den Verlust von Daten. (2 weitere Fehler, wenn Sie RAID 6 ausführen)

Bei einem Hot-Swap-fähigen RAID-Controller ziehen Sie einfach das ausgefallene Laufwerk heraus und legen ein leeres Laufwerk ein.

Woher weiß es, dass es leer ist? Das ist die Aufgabe des (3) Schemas. Alle Laufwerke haben am Anfang nicht verwendete Daten, die Partitionstabelle enthält viel freien Speicherplatz. Jeder Hersteller verwendet es anders, aber hier speichert der RAID-Controller Daten, die angeben, welches Laufwerk zu welchem ​​Teil des RAIDs gehört.

Sobald ein neues Laufwerk erkannt wird, das zuvor nicht von dieser RAID-Karte verwendet wurde, kann der Wiederherstellungsvorgang gestartet werden.

Dies kann automatisch erfolgen oder vom Benutzer ausgelöst werden und kann natürlich den Inhalt des neuen Laufwerks vollständig löschen, wenn es bereits für etwas anderes formatiert wurde.

Die Wiederherstellung oder Neuerstellung wird vom RAID-Controller im Hintergrund verwaltet. Er liest jeden Sektor von den verbleibenden Laufwerken und berechnet, was auf jedem Sektor für das neue Laufwerk vorhanden sein sollte. Bei RAID 1 werden einfach alle Sektoren des vorhandenen guten Laufwerks auf das neue Laufwerk kopiert. Bei RAID 5 oder 6 werden alle vorhandenen Laufwerke gelesen, und die Daten, die auf das neue Laufwerk geschrieben werden sollen, können berechnet werden. Da diese Arbeit auf die verbleibenden Laufwerke zugreift, können Sie normalerweise eine Priorität für sie festlegen, sodass das gesamte System nicht verlangsamt wird.

Sie müssen jedoch in Betracht ziehen, ob die Geschwindigkeit zur Wiederherstellung des vollständigen RAID-Status wichtiger ist als die laufende Arbeit. Bei einigen Controllern, z. B. Controller, die in ein normales Desktop-Motherboard integriert sind, muss möglicherweise das BIOS aufgerufen werden, um die Neuerstellung dort auszulösen, und Sie dürfen das Betriebssystem nicht starten, bis es wieder betriebsbereit ist. Das wäre eine Unannehmlichkeit, und es wäre kein guter HW-Raid, weil Sie Betriebszeit sowie Versagen wollen.

Eine eigenständige HW-Raid-Karte bietet Ihnen den Komfort eines Wiederaufbaus, der Ihre Fähigkeit, weiterzuarbeiten, nicht beeinträchtigt.

Wenn der Fehler auf der RAID-Karte selbst liegt: Der Computer / Server ist höchstwahrscheinlich stark abgestürzt und kann nicht gestartet werden. An dieser Stelle können Sie davon ausgehen, dass die Laufwerke selbst noch funktionsfähig sind, es ist jedoch wahrscheinlicher, dass sich die Laufwerke in einem inkonsitenten Zustand befinden, dh Schreibvorgänge auf ein Laufwerk wurden nicht vollständig auf andere Laufwerke übertragen. Dafür sind Sie dem Betriebssystem und dessen Fehlerbehebung im Dateisystem ausgeliefert. Der schlimmste Fall ist, dass Sie Daten von einer Sicherung wiederherstellen müssen, nachdem Sie den Computer / Server repariert haben. Wenn die RAID-Karte austauschbar ist, kann stattdessen ein identisches Modell installiert werden. Da die einzelnen Laufwerke immer noch dieselbe Identifikation auf eine Weise melden, die von der RAID-Karte erkannt wird, funktionieren die gesamten Laufwerke wie zuvor ohne vollständigen Datenverlust (obwohl Dateisystem-Inkonsistenzen vorliegen können). Wenn der RAID-Controller Teil eines Motherboards war, muss das gesamte Motherboard durch einen Controller mit demselben Modell-RAID-Controller ersetzt werden. Wenn Sie versuchen, eine andere Marke eines RAID-Controllers zu verwenden, werden die Laufwerke höchstwahrscheinlich überhaupt nicht erkannt, und Sie werden nur gefragt, wie Sie sie neu konfigurieren möchten. Dadurch werden alle vorhandenen Daten gelöscht.

Bei HP Servern haben alle Modelle der integrierten RAID-Controller und der Plug-In-Controller das gleiche Schema für die Festplattenidentifizierung, sodass ein integrierter Controller durch ein Plug-In oder ein Plug-In durch ein leistungsfähigeres Plug-In ersetzt werden kann Modell ist ohne Datenverlust möglich.

In beiden Fällen muss auch darauf geachtet werden, dass die Firmware der Ersatz-RAID-Karte auf dieselbe oder eine neuere Version aktualisiert wird als die ersetzte.

Wieder mit HP-Servern hatte ich einen Server-Würfel, dann ziehe ich die gesamten Laufwerke in einem RAID und stecke sie in leere Steckplätze in einem neuen Server (bereits eingeschaltet), und die Daten sind sofort sichtbar.

Dies erklärt nicht, wie Daten von einem RAID-Array wiederhergestellt werden Ramhound vor 7 Jahren 1
Ich stimme Ramhound zu. In Ihrer Antwort haben Sie den Fall beschrieben, dass eine fehlerhafte Festplatte ersetzt wurde. Die Frage ist eher: Was tun mit einem vollständigen Satz gesunder Festplatten, wenn der Controller stirbt? Kamil Maciorowski vor 7 Jahren 0
Aktualisiert mit Szenario für Kartenfehler. Tomuo vor 7 Jahren 0
0
Jamie Hanrahan

Mit RAID 5 haben Sie immer ein "Paritäts-Volume". Dies ist ein Missverständnis, da Paritätsdaten tatsächlich auf die Laufwerke verteilt werden, aber es ist immer noch so, dass Sie ein Laufwerk mehr haben als die Anzahl, die Sie für Ihre geplante Kapazität benötigen würden. Nennen Sie es n für die Anzahl der Laufwerke, die Sie ohne Redundanz benötigen. N + 1 ist die Anzahl, die Ihr RAID 5-Array benötigt.

Das RAID-5-Konzept sieht vor, dass alle n Laufwerke aus dem Satz immer genügend Daten enthalten, um den Inhalt eines ausgefallenen Laufwerks zu rekonstruieren.

Die Art und Weise, wie die Parität dies ermöglicht, ähnelt dem Konzept einer "Batch-Summe" in den Buchhaltungsdaten. Wenn ich eine Reihe von Transaktionen habe, um in ein System einzugehen, kann ich eine Gesamtsumme für die Charge berechnen, bevor ich sie an die Dateneingabe übergebe. Das Dateneingabeprogramm erfordert die Eingabe der berechneten Chargensumme und dann aller Transaktionen. Das Programm berechnet die Summe der Transaktionen und vergleicht diese mit der von mir separat berechneten Batch-Summe. Wenn sie anders sind, stimmt etwas nicht. Die Dateneingabe-Person überprüft also die Details.

Um dies auf RAID 5 auszuweiten, stellen Sie sich vor, dass wir wissen, ob eine der Transaktionen - oder die Batch-Gesamtmenge - falsch eingegeben wurde (oder nicht lesbar ist). Wenn nur eine Eingabe falsch ist, können wir diese Eingabe mit einfacher Arithmetik rekonstruieren: Ziehen Sie alle Zahlen, die wir haben, von der Summe ab, und es gibt die fehlende Zahl.

Zum Glück ist es sehr schwierig für einen fehlerhaften Sektor auf einer Festplatte, ohne Fehleranzeige "gelesen" zu werden.

Um zu verstehen, wie das Paritätsvolumen funktioniert, müssen wir uns nur ein Paar von Bits in Ihren "Endbenutzer" -Daten vorstellen. Angenommen, die ersten zwei Bits in einem Sektor, wie er vom RAID 5-Volume dargestellt wird. Wir speichern eines dieser Bits auf Laufwerk A und das andere auf Laufwerk B. Auf Laufwerk C, das "Paritätsvolumen" für diese speziellen Bits, speichern wir ein Bit, das "Exklusiv-ODER" der beiden anderen Bits ist. Die Funktion "exklusives ODER" ist einfach die Summe der Bits, wobei Übertragen ignoriert wird .

Eine andere Möglichkeit, um es auszudrücken, ist, dass das XOR einer beliebigen Anzahl von Bits 1 ist, wenn die Anzahl von "1" -Bits im Eingang ungerade ist, und 0 ist, wenn die Anzahl von "1" -Bits im Eingang gerade ist. Der Wert dieser "XOR" -Funktion ist das, was im "Parity-Volume" gespeichert ist. Das gibt uns zwei Eingabebits:

 A B XOR(A,B) ---------------- 0 0 0 0 1 1 1 0 1 1 1 0 

Wenn wir nun eines der drei Bits verlieren - eines der drei, sogar das XOR -, können wir es aus den uns vorliegenden Daten rekonstruieren, solange wir wissen, welches Bit falsch ist oder fehlt.

Und ich sage es noch einmal: Die Fehlerbehebung und Überprüfung von Festplatten ist sehr gut. Es ist so eingerichtet, dass, obwohl korrigierte Fehler regelmäßig auftreten, Fehler, die sowohl nicht korrigierbar als auch nicht erkannt werden, sehr, sehr selten sind. In der Mitte haben wir nicht korrigierbare, aber erkannte Fehler, und wir haben auch den Fall, dass das Laufwerk gerade ausfällt und nichts liest (oder das Laufwerk vollständig fehlt). Diese "mittleren" Fälle sind weitaus häufiger als nicht korrigierbare + undektierbare Fehler. Dies ist der Fall, vor dem RAID 5 schützt. Wir können die fehlenden oder fehlerhaften Daten aus den Daten rekonstruieren, indem wir einfach die XOR - die Parität - der Bits berechnen, von denen das Laufwerk sagt, dass sie noch lesbar und gut sind.