Erstellen Sie eine md5sum von jeder Datei. Duplikate md5sums schlagen Duplikate vor (ohne Gewähr).
Möglichkeiten zum Deduplizieren von Dateien
Ich möchte die Dateien einfach auf mehreren Maschinen sichern und archivieren. Leider haben die Dateien einige große Dateien, die dieselbe Datei sind, aber auf verschiedenen Computern unterschiedlich gespeichert sind. Zum Beispiel können einige hundert Fotos als Ad-hoc-Sicherung von einem Computer auf den anderen kopiert werden. Nun, da ich ein gemeinsames Repository für Dateien erstellen möchte, möchte ich nicht mehrere Kopien desselben Fotos.
Wenn ich alle diese Dateien in ein einziges Verzeichnis kopiere, gibt es ein Werkzeug, das doppelte Dateien erkennt, mir eine Liste gibt oder sogar eines der Duplikate löscht?
7 Antworten auf die Frage
- Beliebte
- Neu
- Mit Kommentaren
- Aktiv
Sie können dupemerge verwenden, um identische Dateien in Hardlinks umzuwandeln . Bei einem großen Dateisatz dauert es jedoch sehr lange . SHA (oder MD5) -Hashes der Dateien werden mit großer Wahrscheinlichkeit schneller arbeiten, aber Sie müssen mehr Zeit darauf verwenden, die Duplikate zu finden. Die Wahrscheinlichkeit eines zufälligen Zusammenstoßes ist so gering, dass Sie sie in Wirklichkeit ignorieren können. (In der Tat machen dies bereits viele Deduplizierungsprodukte.)
Die beste Wette für den Umgang mit Fotos und Musik besteht darin, Tools zu finden, die speziell auf das Finden von Duplikaten dieser Elemente zugeschnitten sind. Zumal Sie möglicherweise keine Dateien haben, die auf binärer Ebene identisch sind, nachdem Dinge wie Markieren, Zuschneiden oder Codierungsunterschiede ins Spiel kommen. Sie benötigen Werkzeuge, die Fotos finden, die gleich aussehen, und Musik, die gleich klingt, auch wenn geringfügige Anpassungen an den Dateien vorgenommen wurden.
Wenn Sie die Möglichkeit haben, können Sie ein deduplizierendes Dateisystem einrichten und Ihre Backups darauf ablegen. Dadurch werden nicht nur ganze Dateien, sondern auch ähnliche Teile von Dateien dedupliziert. Wenn Sie z. B. dasselbe JPEG an mehreren Stellen verwenden, jedoch bei jeder Version unterschiedliche EXIF-Tags, würde ein Deduplizierungsdateisystem die Bilddaten nur einmal speichern.
Deduplizierende Dateisysteme umfassen lessfs, ZFS und SDFS.
Als ich so etwas tat, lernte ich, dass es viel ansprechender / zeiteffizienter ist, die Akten in Ihrer Freizeit im Laufe einiger Wochen zu durchsuchen. Sie können den Unterschied zwischen den Dingen besser als Ihr Computer erkennen.
Wenn Sie nicht einverstanden sind, empfehle ich EasyDuplicateFinder . Wie ich oben bereits erwähnt habe, dauert es etwa 5 Tage, ungefähr 5 Tage.
Crashplan macht auch das, was Sie zuvor gemacht haben, jedoch in einem viel organisierteren, nicht-versionierenden Problem.
Eine andere Möglichkeit, vorausgesetzt, die von Ihnen unterstützten Maschinen werden es unterstützen, ist die Verwendung von etwas wie rsync
.
Wenn Sie rsync
von A nach B, dann von C nach B, dann von D nach B usw. wechseln, werden exakte Duplikate (dh nach Dateiname) eliminiert (und zwischen den zu sichernden Maschinen synchronisiert).
Wenn Sie nicht möchten, dass sie alle miteinander synchronisiert werden, ist dies nicht der beste Weg.
Verwenden Sie für Bilddateien findimagedupes . Es ist auch in Debian verpackt .
Hardlinks führen nur dann Deduplizierung durch, wenn die gesamte Datei identisch ist. Wenn Kopfzeilen (EXIF, ID3,…) oder Metadaten (Eigentümer) unterschiedlich sind, werden sie nicht verknüpft.
Wenn Sie die Möglichkeit haben, ein Dateisystem mit Block-Deduplizierungsunterstützung (ZFS, btrfs usw.) zu verwenden, verwenden Sie dies stattdessen. Ich bin sehr angetan von der Offline- (aka- Stapel- ) Dedup-Unterstützung von btrfs, die Deduplizierung auf Umfangsebene unterstützt und nicht ständig große Mengen an Speicher verbraucht (wie ZFS-Online-Dedup).
Die Deduplizierung hat auch den Vorteil, dass Dateien vom Benutzer geändert werden können, ohne dass die andere Kopie bemerkt wird (was in Ihrem Fall möglicherweise nicht anwendbar ist, aber in anderen Fällen).
Unter https://btrfs.wiki.kernel.org/index.php/Deduplication finden Sie eine hervorragende Diskussion.
Verwandte Probleme
-
3
Wie ordnen Sie ein Airport Time Machine-Backup nach der Migration auf einen neuen Mac wieder zu?
-
6
Eine gute Lösung für Home-Backups und die gemeinsame Nutzung von Dateien / Druckern
-
10
Sicherungssoftware für Mac OS X
-
4
Linux-Dateisystem
-
22
Software zum Sichern von Daten und Dateien auf einem Windows-Computer
-
2
Linux auf DVD sichern
-
5
Datenspeicherung und Backup-Plan für ein Foto?
-
18
Wie lösche ich einen Ordner, der gerade verwendet wird?
-
8
Was ist der beste Weg, um MP3s, Fotos und Videos zu organisieren?
-
2
Welche Dateien sollten kopiert werden, um ein startfähiges Sicherungslaufwerk für OS X zu erstellen?