So überwachen Sie eine externe Festplatte auf Datenqualität / -zustand

631
Lance Pollard

Da ich nichts über Festplatten weiß, frage ich mich, wie ein Cloud-Service-Provider seine Festplatten auf Probleme (Datenbeschädigung, Datenverlust, Festplattenausfall usw.) überwacht. Beim Durchsuchen von Google wird nicht viel anderes angezeigt als "Laden Sie das Reparaturkit Ihres Festplattenherstellers herunter und drücken Sie die Reparatur". Ich würde gerne wissen, was in diesem Reparaturprozess passiert, und noch besser, wie ein Cloud-Anbieter seine Festplatten regelmäßig auf Qualität überprüft. Ich habe irgendwo gelesen, dass BackBlaze eine tägliche Analyse der SMART-Statistiken durchführt, um zu sehen, wie sich ihre Festplatten verhalten, aber ich bin mir nicht sicher, was das bedeutet.

Wir verwenden Smartmontools, um die SMART-Daten zu erfassen.

Das Repo ist hier, aber ich würde gerne wissen, was diese Smartmontools machen. Nicht unbedingt im Detail, aber ein kurzer Überblick. Kann nicht wirklich aus dem Repo sagen, was es tut.

Was ich mir vorstellen würde (um eine Festplatte zu überwachen) ist folgendes. Erstellen Sie eine Datenbank mit MD5-Hashwerten für jede Datei. Scannen Sie regelmäßig die gesamte Festplatte und führen Sie mit jeder Datei eine Prüfsumme gegen den gespeicherten MD5-Hash durch. Dies scheint jedoch sehr langsam zu sein, insbesondere auf Terabytes-Festplatten. Ich bin nicht wirklich sicher, welche Arten von Fehlern Sie haben können und welche Arten von Benachrichtigungen Sie erhalten können. Möglicherweise können Sie Dateisystemereignisse verwenden, aber ich bin nicht sicher, wie dies auf einem externen Laufwerk und nicht auf dem Hauptcomputer funktionieren würde. Aber selbst wenn es auf der externen Festplatte funktionierte, bin ich nicht sicher, ob es benachrichtigt werden würde, wenn Daten beschädigt wurden, weil das Gerät alt wurde. Es scheint also der einzige Weg, um zu überprüfen, ob die Daten korrekt sind, die aktuellen Daten tatsächlich mit den alten Daten zu vergleichen. Aber abgesehen von einer Prüfsumme bin ich mir nicht wirklich sicher, auf welche Weise dies effizient getan werden kann.

Bei der Überwachung möchten Sie vor allem wissen, wann ein Laufwerk nicht mehr so ​​gut funktioniert, dass Sie es ändern können. Ein Laufwerk zu reparieren ist eine ganz andere Sache, von der ich nicht weiß, wie es funktioniert, aber ich werde das hier nicht fragen. Ich möchte nur wissen, wie Sie normalerweise eine externe Festplatte überwachen und wie Sie wissen, wann sie nicht richtig funktioniert (dh wie Sie wissen, ob Daten auf effiziente Weise beschädigt wurden oder verloren gegangen sind, und dergleichen). .

Dies scheint einige Informationen zu bieten.

Anstatt nur zu wissen, "einfach x-Technologie anwenden", würde ich gerne wissen, wie man sie als App oder etwas implementiert, zumindest die Grundlagen, um anzufangen.

0
Eine SMART-Sache, die überwacht werden soll, ist der ECC oder die Nummer der Fehlerkorrektur, die von der Festplatte ausgeführt wird. Anfangs wird es 0 sein, aber mit zunehmendem Alter der Festplatte wird sie zunehmen und sogar in die 100-Millionen-Millionen gehen (zu diesem Zeitpunkt ist das Laufwerk so langsam, dass es schmerzhaft ist (glauben Sie mir, ich habe es aus erster Hand erlebt)). Jeder ECC verlangsamt den Lese- / Schreibzyklus, so dass die Geschwindigkeit mit der Zeit abnimmt. cybernard vor 6 Jahren 1

1 Antwort auf die Frage

1
Yorik

"Ich frage mich, wie ein Cloud-Dienstanbieter seine Festplatten auf Probleme überwacht."

Sie tun es nicht wirklich. Laufwerke fallen normalerweise plötzlich aus. Die Antwort besteht darin, Systeme zu bauen, die den Ausfall überleben. Die großen Cloud-Dienste verwenden in mehreren Gebäuden riesige Server-Cluster, Server mit gespiegelten RAID-Arrays (die Daten redundant speichern) und Server, die andere Server spiegeln.

Also redundante Standorte, redundante Server, redundante Laufwerke in Servern.

Google hat Studien zu den Festplattenausfallraten usw. veröffentlicht. Grundsätzlich gilt: SMART ist hauptsächlich unbrauchbar und Laufwerksausfälle machen nach etwa 3 Jahren einen großen Sprung.

Holen Sie sich ein zweites Laufwerk in den Mix, spiegeln Sie es (Robocopy (ein Teil von Windows) ist eine gute Wahl für Verbraucher), und ersetzen Sie sie alle drei Jahre. Wenn Sie eine Kopie Ihrer Daten außerhalb des Standortes erhalten können, tun Sie dies.

Das Reparieren von Laufwerken ist nur gut, um Sachen von denen zu bekommen, für die Sie keine Backups haben. Sie können ihnen nicht länger vertrauen und sie sollten aufgegeben werden. Wenn Sie über eine gespiegelte Sicherung verfügen, ersetzen Sie einfach das ausgefallene Laufwerk, spiegeln Sie die vorhandenen Daten, und fahren Sie fort.

Ich verwende ein Gerät mit niedrigem Stromverbrauch als Server in meinem LAN mit zwei passenden externen Laufwerken (ich suche etwas Großartiges um 100 US-Dollar). Ich schiebe Sicherungen auf ein Serverlaufwerk, und der Server plant eine Routine-Spiegelungsoperation, um die Sicherung auf das andere Laufwerk zu kopieren. Ich bilde auch ab und zu meine wichtigen Maschinen ab, damit ich die Betriebssysteminstallation bei Bedarf wiederherstellen kann.

Ich tausche die externen Festplatten alle paar Jahre aus. Normalerweise nehme ich die Festplatte aus dem Gehäuse und verwende sie zur Massenspeicherung nicht kritischer Daten, z. B. von Spielen auf einem meiner Hauptcomputer bis zur nächsten Runde.