I think the i-net PDF content comparer would be helpful.
It is now in Version 2.0 offering a GUI and flexible pricing options. There is still a free 30 days trial version where you can check on every aspect of the software.
Normalerweise verwende ich WinMerge, um die Unterschiede zwischen Dateien anzuzeigen, aber in diesem Fall hilft es nicht. Die Dateien, die ich vergleiche, haben bekanntermaßen unterschiedliche Dateinamen, was zu Fehlalarmen führt, wenn zwei Dateien mit demselben Dokument unterschiedliche Dateinamen haben.
Ich habe einen Ordner mit vielen Verzeichnissen, in denen alle Anbieter vertreten sind, mit denen mein Unternehmen Geschäfte tätigt, und sie enthalten viele .pdf-Dateien mit Quittungen und Rechnungen. Es ist die Hauptlieferantenliste. Die Rechnungen und Quittungen werden so benannt, dass die Namen ohne die umgebende Verzeichnisstruktur keinen Sinn ergeben, um den Kontext bereitzustellen. Zum Beispiel haben wir hier "Verkäufer / Firma Foo / Produktbar / Rechnung # 3.pdf"
Dann habe ich einen anderen Ordner mit vielen Quittungen und Rechnungen, der zuvor separat von der Hauptlieferantenliste verwaltet wurde und eine manuell erstellte Kopie jeder Quittung und Rechnung enthalten sollte, die in den entsprechenden Eintrag des Hauptlieferanten eingegeben wurde Verzeichnisaufbau. Diese Quittungen und Rechnungen sollten umbenannt werden, damit der Buchhalter sie leichter lesen und wissen kann, worauf sie sich beziehen. Zum Beispiel haben wir hier "Taxes / CompanyFoo ProductBar.pdf".
Ich habe nach Dateien des Typs .pdf im obersten Ordner der Hauptlieferantenliste gesucht, sodass meine Suchergebnisse Quittungen und Rechnungen aller Anbieter in der Verzeichnisstruktur enthalten. Dann kopierte ich diese PDF-Dateien in einen anderen Ordner auf meinem Desktop, damit ich sie vergleichen kann. Ich habe diese Dateien mit den Dateien im Ordner "Taxes" mit WinMerge verglichen, um festzustellen, ob Dateien im Ordner "Taxes" nicht in den "Master Vendor" -Verzeichnissen vorhanden sind, und umgekehrt.
WinMerge zählt Dateien jedoch als anders, nur weil ihre Dateinamen nicht übereinstimmen. Ich muss wissen, ob der Dateiinhalt trotz des Dateinamens unterschiedlich ist.
Es gibt Hunderte dieser Dateien. Wenn sich Dateien im Ordner "Taxes" befinden, die sich nicht im entsprechenden "Master Vendor" -Verzeichnis befinden, muss ich das korrigieren und sie korrekt ablegen.
Kann jemand ein Werkzeug empfehlen, das dies kann?
I think the i-net PDF content comparer would be helpful.
It is now in Version 2.0 offering a GUI and flexible pricing options. There is still a free 30 days trial version where you can check on every aspect of the software.
Wenn Sie über eine Art Unix-Umgebung verfügen (wenn Sie Windows verwenden, schlage ich Cygwin vor ), können Sie leicht doppelte Dateien unterhalb des aktuellen Verzeichnisses finden.
find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32
Die Ausgabe ist md5sum und der Name jeder Datei, die mindestens ein Duplikat (gleiche md5sum) hat. Duplikate werden direkt hintereinander in alphabetischer Reihenfolge angezeigt. Tauschen Sie das .
after find
mit dem Pfad aus, unter dem Sie suchen möchten, wenn es nicht das aktuelle Verzeichnis ist.
Um die Dateien zu erhalten, die keine Duplikate enthalten, können Sie dagegen verwenden
find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32
Dadurch werden nur Dateien gedruckt, die kein Duplikat unterhalb des aktuellen Verzeichnisses enthalten.
Als alternative Lösung können Sie erwägen, Klartext-Kopien jeder PDF-Datei unter demselben Namen (konvertiert mit, z. B. Pandoc) zu speichern, und Textversionen nur mit einem beliebigen Tool vergleichen
Nur habe ich es verwendet, es funktionierte gut und es war einfach!
Probieren Sie die App "PDF Compare" aus, die sowohl Metadaten als auch Seitenbilder auf Pixelebene miteinander vergleicht:
https://www.microsoft.com/de-de/store/p/pdfcompare/9n9dmzjbz2nl#