Lohnt sich die Deduplizierung von Inline-Daten beim Sichern für einen Fotografen?

436
adrianlambert

Ich erstelle RAW-Bilddateien und eine kleine Auswahl an JPEG-Dateien, die von den RAW-Mastern abgeleitet wurden. Die einmal erstellten JPEGs werden sehr, sehr selten erneut bearbeitet, aber wenn sie neu komprimiert werden, ändert sich die gesamte Datei. Bei der Bearbeitung der RAW-Bilder verwende ich eine Software, die Änderungen zerstörungsfrei durchführt. Eine Vorschaudatei und eine Metadatei (XMP <40 KB) werden in Verbindung mit einem Katalog erstellt, der zusammen die Änderungen aufzeichnet.

Ich verwalte die Vorschau- und Katalogdateisicherungen in einem separaten System. Für diese Frage befasse ich mich nur mit RAWs, XMPs und JPEGs.

Ich möchte alle RAW-, JPEG- und XMP-Dateien extern über eine WAN-Verbindung sichern, die auf neuen und geänderten Dateien in einem Dateisystem basiert, das einmal pro Tag auf Änderungen geprüft wird.

Die Deduplizierung scheint zu funktionieren, indem Teile von Dateien gelesen und schwache Hashes erstellt werden, um sie mit allen anderen Teilen von Dateien zu vergleichen. Wenn festgestellt wird, dass ein Hash der gleiche ist wie ein anderer, wird ein stärkerer Hash erstellt und die Teile werden erneut verglichen. Wenn die Teile immer noch denselben Hash erstellen, wird der zweite Teil nicht hochgeladen. Stattdessen verweist das Sicherungssystem den duplizierten Teil der Datei auf die zuvor gesicherte Kopie.

Meine Frage ist…

  • Wenn sich die RAW-Dateien nicht ändern und…
  • Die JPEGs werden sich selten ändern und…
  • In den XMP-Dateien können sich Teile der Dateien geändert haben und…
  • Die CPU / RAM-Anforderungen für die Deduplizierung sind sehr hoch und…
  • Da die Datendeduplizierung die übertragene Datenmenge reduzieren kann…

… Lohnt es sich, die Duplizierung zu verwenden?

0
welche os und welche fs verwenden sie oder sind bereit zu prüfen? Ich arbeite derzeit als Neuling bei btrfs, für den es ein Projekt [duperemove] (https://github.com/markfasheh/duperemove/tree/v0.09-branch) gibt, das Out-of-Band-Deduplizierung (aber online) anbietet . Wenn Sie dies auf das Quelldateisystem anwenden, sollten Sie auch Sicherungen mit `btrfs send` schneller machen (denke ich). Im Gegensatz dazu, wenn Sie `rsync` verwenden, glaube ich nicht, dass Deduplizierung Ihre Sicherung beschleunigen wird. gogoud vor 9 Jahren 0
Ich verwende einen Synology NAS (ext4) und lade zum Absturzplan hoch. Benutzer, die crashplan verwendet haben, kommentieren im Allgemeinen den ressourcenhungrigen Deduplizierungsprozess als einen begrenzenden Faktor für die Backup-Geschwindigkeit. Danke für die Antwort. adrianlambert vor 9 Jahren 0
Das ist keine schlechte Frage. Das Problem ist jedoch, dass dies massive Kopfschmerzen ist - nicht nur für Sie -, aber für alle Benutzer von Digital Asset Management-Systemen und zu 100% kann sich niemand darauf einigen, was die beste Methode zum Umgang mit Quellen gegenüber abgeleiteten Bildern ist. Und die „Lösung“ kommt wirklich darauf an, was für Ihren speziellen Prozess am besten funktioniert. Nicht viel anderes kann das außerhalb davon bestimmen. JakeGould vor 9 Jahren 1
Ich glaube nicht, dass Sie meine Frage in der von mir erhofften Art und Weise betrachten. Ich möchte am besten feststellen, inwieweit die seltenen Daten, die sich selten ändern, von der Datenmenge profitieren, die über einen bestimmten Zeitraum gesichert werden kann. Dh was ist schneller? Deduplizierung aktiviert oder Deduplizierung effektiv in einem System deaktiviert, dessen Geschwindigkeit durch den Deduplizierungsprozess reduziert wird. adrianlambert vor 9 Jahren 1

0 Antworten auf die Frage