Mein RAID 10-Array ist beschädigt. Wie erhalte ich meine Daten zurück?

690
Car12

Ich habe einen Server mit 4 Laufwerken in einem RAID 10-Array. Vor kurzem war mein Server ausgefallen. Das Array hat die Laufwerke nicht erkannt. Derzeit wird nur ein einzelnes Laufwerk von der RAID-Karte gesehen, während ein zweites Laufwerk als nicht erreichbar angezeigt wird. Und 2 Laufwerke zeigen mehrere Fehler. Leider habe ich kein aktuelles Offsite-Backup.

Es wurde mir empfohlen, das RAID 10-Array mit Acronis zu klonen. Es besteht jedoch die Möglichkeit, dass die Daten überschrieben werden, aber nicht bootfähig sind oder an einem beliebigen Punkt vollständig ausfallen können.

Was ist die sicherste Lösung, um die Daten in diesem Fall wiederherzustellen? Ich möchte meine Daten nicht verlieren.

0
Wenn 3 Laufwerke mit 10 ausgefallen sind, haben Sie bereits die Anzahl der Laufwerke überschritten, die ausfallen können. Ramhound vor 6 Jahren 3
Danke für deine Antwort. Mein Provider sagte mir, dass Drive A & D nicht zugänglich ist. Und andere könnten versagen. Ich kann versuchen, das Array neu zu erstellen, aber es besteht die Möglichkeit, dass die Laufwerke während des Vorgangs die Daten verlieren. Was sind die sichersten Optionen, um die Daten wiederherzustellen? Car12 vor 6 Jahren 1
Sie können Ihr Array aufgrund der Anzahl der Laufwerke, die nicht zugänglich sind und / oder ausgefallen sind, nicht neu erstellen. Sie haben eine Chance von 0% für die Datenwiederherstellung mit der Anzahl der Laufwerke, die Sie angegeben haben und auf die nicht zugegriffen werden kann. Ramhound vor 6 Jahren 0
Alle Laufwerke werden derzeit angezeigt. Das Array wurde erneut erkannt, befindet sich jedoch derzeit im Offline-Status. Ich konnte das Array nicht online erzwingen, da es beschädigt ist und es wurde die Meldung angezeigt, dass nicht genügend Segmente vorhanden waren, um es online zu schalten. Könnte in diesem Fall etwas unternommen werden? Car12 vor 6 Jahren 0
Sehen Sie meinen ursprünglichen Kommentar. Ramhound vor 6 Jahren 0
@ Carmin: Mit vier ansprechenden, aber fehlerhaften Laufwerken können Dinge möglicherweise gerettet werden, aber es wird weder schnell noch einfach sein. Siehe die Antwort von TOOGAM (es gibt Firmen, die dies professionell tun; in diesem Fall wird es nicht * billig * sein). Sie könnten trotzdem einige Dateien verlieren. Es sieht so aus, als sei Ihre Festplatte zu lange mit einem ungeprüften fehlerhaften Zustand gegangen, bis der Fehler nicht mehr behoben werden konnte. Dies kann auf einen Fehler im Wartungs- / Inspektionsprozess hinweisen. LSerni vor 6 Jahren 1
@ Ramhound: Ich sehe, dass dein Ruf etwas über 10k ist, während ich dies schreibe. Herzlichen Glückwunsch zum Erreichen dieses Meilensteins. Ein Tipp: Sie wissen eindeutig viel. Ich habe Ihren Namen mehrmals gesehen. Bei einigen dieser Anlässe, wie dieser hier, haben Sie einige korrekte (und dadurch nützliche) Informationen bereitgestellt, aber ich habe es geschafft, mehr Ansehen zu erlangen (z. B. einige Up-Votes in den ersten 20 Minuten meiner Antwort hier.) ) indem Sie sich mehr Zeit nehmen und detailliertere Erklärungen liefern, die für Menschen, die weniger wissen, hilfreich sein können. (& scheint, hilfreich zu sein, wahrscheinlich vertrauenswürdiger bei dem, was die Leute weniger verstehen.) TOOGAM vor 6 Jahren 0
@ TOOGAM Danke für deine Antwort. Sie meinen, dass während des Wartungsvorgangs beim Serveranbieter Fehler oder Fehler aufgetreten sind? Ich verwende Managed Services. Mein Serveranbieter hat diesen Grund angegeben: "Ihre Laufwerke sind aufgrund einer hohen Anzahl ausstehender Sektoren und neu zugewiesener Sektoren ausgefallen. Der Laufwerksausfall war auf die allgemeine Verwendung zurückzuführen." Car12 vor 6 Jahren 0
@ LSerni Danke für deine Antwort. Meinen Sie damit, dass während des Wartungsvorgangs beim Serveranbieter Fehler oder Fehler aufgetreten sind? Ich verwende Managed Services. Mein Serveranbieter hat diesen Grund angegeben: "Ihre Laufwerke sind aufgrund einer hohen Anzahl ausstehender Sektoren und neu zugewiesener Sektoren ausgefallen. Der Laufwerksausfall war auf die allgemeine Verwendung zurückzuführen." Car12 vor 6 Jahren 0
Was?!? Wie "verwaltet" sind diese "Managed Services", die Ihnen zur Verfügung gestellt werden? Warum reagierten sie nicht auf ausgefallene Geräte? Zeigen Protokolle, dass Laufwerke seit einiger Zeit Probleme haben? Haben sie es versäumt, etwas zu überprüfen, das sie überwachen wollten? Vielleicht ist die Nachlässigkeit nicht deine Schuld, und sie sollten dafür am Haken sein? (Dokumentieren Sie Daten, die Ihnen jetzt zur Verfügung stehen, bevor Sie sichtbar feindselig werden, sodass sie für Sie nicht verfügbar sind.) Haben sie es fahrlässig nicht bemerkt? Was sind die Dienstleistungen, die sie anbieten sollen? Was sind ihre Verantwortlichkeiten? Sollten Sie eine Klage einreichen? TOOGAM vor 6 Jahren 0
@TOOGAM Dies sagten sie zu mir: "Wir überwachen den Zustand der Laufwerke nicht aktiv. Da dies eine Adaptec-Karte war, hätten Sie ihren Speichermanager installieren können." Der verwaltete Dienst umfasst die Überprüfung der CPU-, RAM- und E / A-Nutzung sowie die Meldung von Problemen. Sollte dieses Problem nicht gemeldet werden, wenn die E / A-Nutzung überwacht wird? Car12 vor 6 Jahren 0

1 Antwort auf die Frage

3
TOOGAM

Erstens wissen Sie, dass viele Leute gerne sagen: "RAID ist kein Backup". Der Grund, warum ein Unternehmen RAID verwenden sollte, ist die Minimierung von Ausfallzeiten. Der Grund, warum ein Unternehmen Daten sichern sollte, besteht darin, Daten auf eine frühere Version zurücksetzen zu können. Ja, technisch gesehen werden bei RAID 1 Daten im Wesentlichen von einem Laufwerk auf ein anderes Laufwerk "gesichert". Viele Bedrohungen für die Daten wirken sich jedoch nicht nur auf ein Laufwerk aus, sondern auf beide. Der Zweck von RAID und Backup ist daher sehr unterschiedlich, weshalb viele Leute gerne sagen: "RAID ist kein Backup".

Derzeit wird nur ein einzelnes Laufwerk von der RAID-Karte gesehen, während ein zweites Laufwerk als nicht erreichbar angezeigt wird. Und 2 Laufwerke zeigen mehrere Fehler.

Ich stimme Ramhound zu. Es klingt wie du zum Scheitern verurteilt bist. Es tut uns leid.

Wenn nur ein Laufwerk Probleme hatte, können Sie damit sicherlich zurechtkommen. Wenn Sie jedoch möchten, dass die Dinge wieder in "guter Form" sind, benötigen Sie mindestens 2 Laufwerke (und es müssen die richtigen Laufwerke sein!), Um eine gute Wiederherstellung für ein solches Szenario durchzuführen. Es klingt, als hätten Sie 3 Laufwerke mit Problemen (eines ist nicht ansprechbar und 2 andere mit Fehlern). Wenn dies der Fall ist, haben Sie nicht genug Arbeit, um das Problem vollständig zu lösen (wenn überhaupt). In diesem Fall erleiden Sie einen Datenverlust (möglicherweise katastrophaler Verlust aller). Wenn sich diese Sprache als zu hart anhört, tut es mir leid: Ich möchte nicht insensitiv sein, sondern ich versuche nur, Stumpfheit und Klarheit zu fördern.

Wenn Sie versuchen, ein RAID 1 (das aus zwei Teilen besteht) wiederherzustellen, müssen Sie das fehlerfreie Teil wiederherstellen. Andernfalls erhalten Sie Fehler. Wenn Sie nicht feststellen können, auf welchen Laufwerken Fehler aufgetreten sind, müssen Sie möglicherweise zunächst alle Laufwerke sichern (mit bitweisen / forensischen Kopien, wie später erwähnt). Wenn Sie die Wiederherstellung mit den falschen Laufwerken durchführen, Sie können es erneut versuchen. Daher müssen Sie möglicherweise eine gewisse Menge an verfügbarer Speicherkapazität haben, um diesen Speicher am sichersten zu nutzen.

Wenn fortlaufende Anstrengungen dazu führen, dass Ihr nicht funktionierendes Laufwerk wieder funktionsfähig ist und das Laufwerk gut ist, können Sie möglicherweise eine gute Wiederherstellung durchführen, obwohl zwei Laufwerke nicht in der Lage sind, Ihnen alle erforderlichen Informationen zukommen zu lassen Daten. Das könnte möglich sein. Könnte sein. Der Rest dieser Antwort wird diese Möglichkeit ausloten.

Leider ist die RAID-Terminologie nicht universell genug, um uns Klarheit zu verschaffen, um zu wissen, welche Laufwerke Sie verloren haben, basierend auf den Informationen, die Sie bisher bereitgestellt haben. Sie haben RAID 10 erwähnt. Nun, das ist:

  • ein RAID 1-Laufwerk, das dann in ein RAID 0 gestreift wurde,
  • oder ein RAID 0, das dann in einen RAID 1-Spiegel gestellt wurde?

Die richtige Antwort ist...

das ist herstellerabhängig.

Jep. Wir wissen es einfach nicht. Ich stütze diese Schlussfolgerung aus dem PC Guide-Artikel auf Multi-RAID-Level, die besagen, dass RAID10 normalerweise RAID 1 und dann RAID 0 bedeutet (was für Sie das bessere Szenario ist), aber einige ...

andere Unternehmen stornieren die Bedingungen! Sie könnten die RAID 0- und dann die RAID 1-Technik "RAID 1/0" oder "RAID 10" nennen (vielleicht aus Angst, dass die Leute "RAID 01" und "RAID 1" für dasselbe halten würden. Einige Designer verwenden die Ausdrücke "RAID 01" und "RAID 10" austauschbar. Das Ergebnis all dieser Verwirrung besteht darin, dass Sie untersuchen müssen, was genau ein Unternehmen implementiert, wenn Sie mehrere RAID-Systeme betrachten. Vertrauen Sie dem Etikett nicht.

Also, immer wenn jemand RAID10 sagt, vertrauen Sie nicht auf die Reihenfolge, die er getan hat. Finde es heraus.

Wenn Sie über Spiegel verfügen, die gestreift sind, sah Ihr Layout folgendermaßen aus:

AB = RAID1
CD = RAID1
(Spiegel der beiden RAID 1)

Wenn Sie die Laufwerke A und D verlieren, wird jedes RAID1 beeinträchtigt, funktioniert jedoch und Ihr Stripe funktioniert mit beiden Teilen, sodass alles in Ordnung ist.

Wenn Sie über gespiegelte Streifen verfügen, sah Ihr Layout folgendermaßen aus:

AB = RAID0
CD = RAID0
gespiegelt ...

Dann ist jedes RAID0 verloren, und Sie haben zwei verlorene Laufwerke gespiegelt, sodass Sie nichts zu retten haben.

Glücklicherweise sieht es so aus, als würden die meisten RAID10-Implementierungen Spiegel sein, die gestreift werden, daher stehen die Chancen zu Ihren Gunsten.

Wenn Sie davon ausgehen, dass das Layout für Sie günstig ist, möchten Sie vor dem erneuten Erstellen eine Sicherungskopie der Laufwerke erstellen. Lassen Sie mich klarstellen: Sie möchten keine Dateien sichern. Sie möchten keine Partitionen sichern. Sie möchten Laufwerke sichern. Ganze Laufwerke. Stellen Sie sicher, dass Ihr Sicherungsprozess ein vollständiges Bit für Bit-Archiv durchführt, das manchmal als "forensische Kopie" bezeichnet wird. Dabei werden ALLE Daten auf der Festplatte kopiert, einschließlich ungenutzter Bits und (ganz wichtig für Sie) Metadaten wie Laufwerkssignaturen, die das RAID-Laufwerk kennzeichnet "Software" verwendet möglicherweise. (Mit "Software" meine ich nicht notwendigerweise ein auf der Festplatte gespeichertes Programm, sondern die Logik, die in eine bestimmte Schaltung eingebettet sein kann, abhängig davon, welches RAID Sie verwenden.)

Mir wurde empfohlen, das RAID 10-Array mit Acronis zu klonen

Ich empfehle Acronis nicht aufgrund von Problemen, die ich beruflich erlebt habe. Ich weiß jedoch, dass Acronis sehr beliebt ist. Meine Präferenz für dieses Szenario wäre ein beliebiges Unix (das möglicherweise eine Acronis-Boot-CD enthalten könnte) und die Verwendung von dd, möglicherweise zusammen mit netcat (wenn die Laufwerke remote sind). Dies erfordert zwar ein wenig Lernen, aber wenn alles reibungslos verläuft, hätte ich ein gewisses Vertrauen in das Endergebnis der Sicherungsaufgabe (abhängig davon, ob das Ziellaufwerk angemessen zuverlässig ist).

Es besteht die Möglichkeit, dass die Daten überschrieben werden, aber nicht bootfähig sind oder dass sie an einem beliebigen Punkt vollständig ausfallen können

Ich würde "Ja" sagen, da ist diese Bedrohung. Ich bin der Meinung, dass Wiederherstellungen manchmal aus nicht allzu großen Gründen fehlschlagen ... und das Wiederherstellen von einer anderen Festplatte kann wunderbar funktionieren. Aus diesem Grund sollten Sie wirklich, wirklich, wirklich ein sehr sauberes Backup erhalten, bevor Sie mit der Neuerstellung beginnen. Stellen Sie immer sicher, dass Sie NICHT Ihre einzige Kopie der Daten verwenden, wenn Sie eine Neuerstellung starten.

Sobald Sie eine perfekte Sicherung haben (die Sie ziemlich leicht überprüfen können, ob die Hardware noch richtig funktioniert, indem Sie für jedes Byte auf der Festplatte einen Bit-für-Bit-Vergleich durchführen, was unter Unix möglicherweise einfacher ist als bei anderen Betriebssystemen) ), dann hast du ziemlich wenig zu verlieren, indem du versuchst, wieder aufzubauen. Seien Sie also sehr paranoid, wenn Sie das Backup richtig machen lassen, aber entspannen Sie sich während des (möglicherweise) längeren Vorgangs des Wiederaufbaus. (Zu diesem Zeitpunkt sollten Sie während des Wiederherstellungsprozesses keine Probleme haben, es sei denn, Sie haben auch Probleme mit Ihren Backups.) Abgesehen von den mehreren Laufwerken, die Sie verloren haben, müsste ein weiteres, eher unwahrscheinliches Problem auftreten unwahrscheinlich, zum Scheitern verurteilt ... wenn Ihr Backup gut gemacht wurde.)

Wenn Sie sich vergewissert haben, dass die Neuerstellung erfolgreich ist, stellen Sie sicher, dass Ihre Daten scheinbar wiederhergestellt sind (überprüfen Sie die Daten aus verschiedenen Abschnitten und hoffen Sie, mehrere Laufwerke zu überprüfen). Betrachten Sie dann den Vorgang "Dieses Problem beheben" nicht als abgeschlossen haben eine funktionierende Sicherungslösung.

Ich liebe diese Antwort. Möchten Sie mit `dd` etwas genauer sein (z. B. warum nicht` ddrescue`?)? Ein gutes Red von einem Wiki würde ausreichen, aber ich würde davon ausgehen, dass jeder, der sich in einer RAID-Degradation befindet, in der Nähe eines Nervenzusammenbruchs wäre (ich weiß, dass ich es wäre ;-)) Der beste Weg, um sie vor einem vollständigen Datenverlust zu schützen. flolilolilo vor 6 Jahren 0
"ddrescue": es klingt, als könnte es zu körperlichem Schaden kommen, also: guter Vorschlag. Es ist weniger häufig auf verschiedenen bootfähigen Unix-Systemen verfügbar. Diese Unannehmlichkeiten sollten überwunden werden, um wertvolle Daten wiederherzustellen. Meine Antwort wurde mit der Idee geschrieben, eine vollständige Genesung anzustreben. Deshalb habe ich bemerkt, dass "wenn alles glatt geht", als ich über "dd" sprach. Ich würde erwarten, dass das Überspringen nur einiger Daten auf einem Laufwerk einen verstärkten negativen Effekt hat (der Anfälligkeit für mehr Daten), wenn RAID0 Teil des Bildes ist. Vielleicht würde es sogar den Wiederherstellungsprozess beeinflussen? TOOGAM vor 6 Jahren 1
@flolilolilo: Über "eine Neuerung aus einem Wiki": Ich habe einen eigenen Leitfaden für die Sicherung von w / dd & netcat veröffentlicht. Ich habe daher nicht die Absicht, nach anderen Drittanbieter-Dokumenten zu suchen, auf die ein Hyperlink verweist . Eigentlich enthält diese Antwort bereits einige Informationen, die ich gerade in einem Teil meiner eigenen Online-Dokumentation gefunden habe. Als ich zum ersten Mal an Stack Exchange teilnahm, beklagten sich die Moderatoren, dass meine Beiträge zu sehr auf meine eigenen Online-Dokumente verwiesen wurden. Also verhalte ich mich (manchmal, indem ich nicht antworte @ @ mal @ etwas traurige Kosten für die Qualität meiner Antworten), indem ich nur auf meine eigene Seite verweise * äußerst selten *. TOOGAM vor 6 Jahren 0
** Was "ein neues aus einem Wiki" betrifft: ** Oh, ich verstehe. Ich muss zugeben, dass mir das Verkehrserzeugungsproblem nicht bewusst war. Voller Rückzug von meiner Anfrage dann! ** Was "ddrescue" angeht: ** Mein Wissen über die Rettung von Daten ist rein nicht professionell. Ich würde also alles, was Sie sagen, füllen und die Lücken mit Wissen von anderen Websites füllen Vertrauen in mein eigenes, noch nicht anerkanntes Wissen). flolilolilo vor 6 Jahren 0
@flolilolilo: Seien Sie vorsichtig, jemandem zu viel Kredit zu geben; Nur weil sie ziemlich viel zu wissen scheinen, heißt das nicht, dass sie bei allem, was sie sagen, genau sind. In meinem Fall bemühe ich mich, genau zu sein, aber die letzten beiden Sätze meines ddrescue-Kommentars (beginnend mit "Ich würde erwarten") basieren mehr auf meinem eigenen Lesen als auf der tatsächlichen Berufserfahrung. TOOGAM vor 6 Jahren 0