Schnell die Datenbank von sha256sums verwalten?

300
gmatht

Ich habe viele verschiedene Festplatten (hauptsächlich Festplatten), die verschiedene Dateien speichern. Ich möchte wissen, dass sie alle in irgendeiner Form gesichert sind. In Anbetracht dessen, dass ich Terabytes an Dateien habe (Backups von Backups anscheinend), möchte ich nicht alles noch einmal auf neue Medien sichern. Ich möchte eine Form von Datenbank mit Dateien pflegen und sie verwenden, um schnell und einfach alle Dateien auf X zu identifizieren, die noch nicht auf Y bis Y vorhanden sind, und im Idealfall auch

  1. listet alle Dateien auf X auf, die nicht auf anderen Medien dupliziert / gesichert werden
  2. Deduplizieren Sie Dateien auf X
  3. Alle Dateien auflisten, die nicht in den Offline- / WORM- / Offsite-Speicher kopiert werden
  4. Idealerweise auch JPGs nach EXIF-Datum abgleichen.

Der erste Schritt dazu wäre die Aufrechterhaltung einer Datenbankbasis der Hashwerte der Dateien auf allen Festplatten. Wie würde ich also eine Datenbank mit Hashdaten von vielen Terabytes an Dateien verwalten?

Auf den ersten Blick scheint Hash-Depot ausreichend zu sein, aber es scheint nicht so, als hätte man eine vorhandene Datenbank aktualisiert, so dass ein Update der Datenbank viele Terabytes an Dateien erfordert. du -ab ist schnell genug, und Dateiname + Dateigröße gibt einen ziemlich guten Hinweis darauf, ob zwei Dateien Duplikate sind. Hashes zu haben, wäre jedoch deutlich zuverlässiger.

1

1 Antwort auf die Frage

0
gmatht

Möglicherweise gibt es keine einfache Möglichkeit, dies zu tun, und es sind umfangreiche Skripte erforderlich. Wenn ja, behalte ich die Skripte unter: https://github.com/gmatht/joshell/blob/master/mass_file_management/

Im Moment ist dies nicht viel mehr als eine Analyse der Ausgabe von du, um zu erraten, welche Dateien neu sind, und zu berechnen, wie viele MB die neuen eindeutigen Dateien zum Archivieren benötigen. Eine bessere Lösung wäre bevorzugt.