Zunächst ein Nachteil: Die Annahme einer Identität anhand einer Prüfsumme ist sehr gefährlich. Nicht empfohlen.
Die Verwendung einer Prüfsumme als Filter zum Entfernen bestimmter Nicht-Duplikate ist in Ordnung.
Wenn ich das mache, gehe ich so vor:
Erstellen Sie eine Liste von Dateien nach Länge (Länge, vollständiger Pfadname).
Scannen Sie diese Liste nach potenziellen doppelten Längen.
Übereinstimmungen sind mögliche Duplikate, und ich würde die verdächtigen Dateien nach Möglichkeit richtig vergleichen.
Der Grund für die Verwendung von Längen ist, dass diese Informationen sehr schnell verfügbar sind, ohne die Datei Byte für Byte zu scannen, da sie normalerweise in den Dateisystemstatistiken für einen schnellen Zugriff gespeichert werden.
Sie können eine weitere Stufe hinzufügen, in der die Prüfsummen (für Dateien mit ähnlicher Länge) verglichen werden, wenn Sie der Meinung sind, dass dies schneller ist als der direkte Vergleich von Dateien, indem Sie einen ähnlichen Ansatz verwenden (Prüfsummen werden einmal berechnet). Verwenden Sie einen ähnlichen Ansatz (beginnen Sie mit der Liste der übereinstimmenden Längen und berechnen Sie die Prüfsummen dafür).
Von der Prüfsummenberechnung profitieren Sie nur, wenn mehrere Dateien mit der gleichen Länge vorhanden sind. Selbst dann, wenn Byte für Byte ein direkter Vergleich erfolgt, werden sehr wahrscheinlich sehr schnell keine Übereinstimmungen gefunden.