Wie kann ich den Inhalt von PDF-Dateien vergleichen, Dateinamen vom Vergleich ausschließen?

3734
cdvonstinkpot

Normalerweise verwende ich WinMerge, um die Unterschiede zwischen Dateien anzuzeigen, aber in diesem Fall hilft es nicht. Die Dateien, die ich vergleiche, haben bekanntermaßen unterschiedliche Dateinamen, was zu Fehlalarmen führt, wenn zwei Dateien mit demselben Dokument unterschiedliche Dateinamen haben.

Ich habe einen Ordner mit vielen Verzeichnissen, in denen alle Anbieter vertreten sind, mit denen mein Unternehmen Geschäfte tätigt, und sie enthalten viele .pdf-Dateien mit Quittungen und Rechnungen. Es ist die Hauptlieferantenliste. Die Rechnungen und Quittungen werden so benannt, dass die Namen ohne die umgebende Verzeichnisstruktur keinen Sinn ergeben, um den Kontext bereitzustellen. Zum Beispiel haben wir hier "Verkäufer / Firma Foo / Produktbar / Rechnung # 3.pdf"

Dann habe ich einen anderen Ordner mit vielen Quittungen und Rechnungen, der zuvor separat von der Hauptlieferantenliste verwaltet wurde und eine manuell erstellte Kopie jeder Quittung und Rechnung enthalten sollte, die in den entsprechenden Eintrag des Hauptlieferanten eingegeben wurde Verzeichnisaufbau. Diese Quittungen und Rechnungen sollten umbenannt werden, damit der Buchhalter sie leichter lesen und wissen kann, worauf sie sich beziehen. Zum Beispiel haben wir hier "Taxes / CompanyFoo ProductBar.pdf".

Ich habe nach Dateien des Typs .pdf im obersten Ordner der Hauptlieferantenliste gesucht, sodass meine Suchergebnisse Quittungen und Rechnungen aller Anbieter in der Verzeichnisstruktur enthalten. Dann kopierte ich diese PDF-Dateien in einen anderen Ordner auf meinem Desktop, damit ich sie vergleichen kann. Ich habe diese Dateien mit den Dateien im Ordner "Taxes" mit WinMerge verglichen, um festzustellen, ob Dateien im Ordner "Taxes" nicht in den "Master Vendor" -Verzeichnissen vorhanden sind, und umgekehrt.

WinMerge zählt Dateien jedoch als anders, nur weil ihre Dateinamen nicht übereinstimmen. Ich muss wissen, ob der Dateiinhalt trotz des Dateinamens unterschiedlich ist.

Es gibt Hunderte dieser Dateien. Wenn sich Dateien im Ordner "Taxes" befinden, die sich nicht im entsprechenden "Master Vendor" -Verzeichnis befinden, muss ich das korrigieren und sie korrekt ablegen.

Kann jemand ein Werkzeug empfehlen, das dies kann?

2
Warum verwenden Sie md5sum nicht rekursiv? Bei zwei PDF-Dateien mit derselben Prüfsumme und derselben Dateigröße besteht eine äußerst geringe Wahrscheinlichkeit, dass sie unterschiedlich sind. Benoit vor 12 Jahren 1
Mögliches Duplikat von [Welche doppelten Dateien und Ordner-Finder gibt es für Windows?] (http://superuser.com/questions/8223/which-duplicate-files-and-folders-finders-exist-for-windows) Daniel Beck vor 12 Jahren 0
Ich habe in diesem Thread etwas gefunden, das tut, was ich brauche. Die Antwort auf diesen Thread ist, was es war. Danke Daniel Beck! Ich weiß nicht, wie ich das zur Antwort auf diese Frage machen soll. cdvonstinkpot vor 12 Jahren 0

5 Antworten auf die Frage

2
hamed

I think the i-net PDF content comparer would be helpful.

It is now in Version 2.0 offering a GUI and flexible pricing options. There is still a free 30 days trial version where you can check on every aspect of the software.

Comparison Result

Sah machbar aus, bis ich den Preis sah: 1295 US $. Und die Bedingungen der kostenlosen Testversion machen es unbrauchbar, da ich kein Entwickler bin. cdvonstinkpot vor 12 Jahren 1
1
Eroen

Wenn Sie über eine Art Unix-Umgebung verfügen (wenn Sie Windows verwenden, schlage ich Cygwin vor ), können Sie leicht doppelte Dateien unterhalb des aktuellen Verzeichnisses finden.

find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32 

Die Ausgabe ist md5sum und der Name jeder Datei, die mindestens ein Duplikat (gleiche md5sum) hat. Duplikate werden direkt hintereinander in alphabetischer Reihenfolge angezeigt. Tauschen Sie das .after findmit dem Pfad aus, unter dem Sie suchen möchten, wenn es nicht das aktuelle Verzeichnis ist.

Bearbeiten:

Um die Dateien zu erhalten, die keine Duplikate enthalten, können Sie dagegen verwenden

find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32 

Dadurch werden nur Dateien gedruckt, die kein Duplikat unterhalb des aktuellen Verzeichnisses enthalten.

0
Lazy Badger
  1. Sie können (müssen, wirklich) das xdocdiff- Plugin für WinMerge verwenden, wenn Sie den Inhalt mit den Augen vergleichen
  2. Vergleich es! kann (so lala) und in Vergleichsfenstern PDF-Dateien ohne zusätzliche Plugins rendern
  3. DiffPDF vergleichen und verglichene Dateien noch besser darstellen (siehe Screenshot auf Seite), crossplatform

Als alternative Lösung können Sie erwägen, Klartext-Kopien jeder PDF-Datei unter demselben Namen (konvertiert mit, z. B. Pandoc) zu speichern, und Textversionen nur mit einem beliebigen Tool vergleichen

0
Micah Armantrout

Nur habe ich es verwendet, es funktionierte gut und es war einfach!

http://www.qtrac.eu/diffpdf.html

0
rick

Probieren Sie die App "PDF Compare" aus, die sowohl Metadaten als auch Seitenbilder auf Pixelebene miteinander vergleicht:

https://www.microsoft.com/de-de/store/p/pdfcompare/9n9dmzjbz2nl#