So extrahieren Sie Text aus PDF-Dateien mit eingebetteten Zeichensätzen

Question

So extrahieren Sie Text aus PDF-Dateien mit eingebetteten Zeichensätzen

3093

Nishanth Lawrence 2013-10-08 в 09:20

Pdftotext von xpdf funktioniert gut für normale Dateien mit eingebetteten Schriftarten, schlägt jedoch fehl, wenn eingebettete Zeichensätze für Subsets vorhanden sind. Gibt es eine Problemumgehung für dieses Problem?

1

2 Antworten auf die Frage

0

Damon 2013-10-08 в 09:45

In dieser Situation habe ich die PDF-Dateien mit dem Adobe PDF-Drucker mit einer hohen Auflösung (1200 dpi +) und einem hochqualitativen Bild gedruckt (mit beliebiger Einstellung). Dann OCR das Bild-PDF-OCR und mir ein durchsuchbares und verarbeitbares PDF.

Wenn ich viele PDFs für Tausende von Seiten erstellen kann, habe ich mehrere PDF-Fenster gleichzeitig geöffnet, um dies gleichzeitig zu machen, indem mehrere Kerne für mehrere PDFs verwendet werden. Es ist eine PITA, aber es funktioniert.

Hoffentlich sind Ihre Dateien klein! Ich habe dies auf über 10.000 Seiten einmal gemacht (Bauvorschriftenbücher). Kein Spaß.

Danke für die Antwort . Aber wie kommt es, dass der PDF-Viewer es richtig interpretieren kann? Nishanth Lawrence vor 11 Jahren 0

Wahrscheinlich, weil die Kodierung in das PDF eingebettet ist, nicht das Programm. Damon vor 11 Jahren 0

Accepted Answer · 2013-10-08 09:23:26

Das Problem ist wahrscheinlich, dass die Zeichen, die mit der Subset-Schriftart gerendert werden, eine benutzerdefinierte Kodierung haben - die numerische Darstellung der Zeichen entspricht nicht ASCII, Latin-1 oder einer anderen gängigen Kodierung.

Sehen

Dies bedeutet, dass es keine einfache Problemumgehung gibt.

So extrahieren Sie Text aus PDF-Dateien mit eingebetteten Zeichensätzen

2 Antworten auf die Frage

Verwandte Probleme