So extrahieren Sie Text aus PDF-Dateien mit eingebetteten Zeichensätzen

3093
Nishanth Lawrence

Pdftotext von xpdf funktioniert gut für normale Dateien mit eingebetteten Schriftarten, schlägt jedoch fehl, wenn eingebettete Zeichensätze für Subsets vorhanden sind. Gibt es eine Problemumgehung für dieses Problem?

1

2 Antworten auf die Frage

0
RedGrittyBrick

Das Problem ist wahrscheinlich, dass die Zeichen, die mit der Subset-Schriftart gerendert werden, eine benutzerdefinierte Kodierung haben - die numerische Darstellung der Zeichen entspricht nicht ASCII, Latin-1 oder einer anderen gängigen Kodierung.

Sehen

Dies bedeutet, dass es keine einfache Problemumgehung gibt.

0
Damon

In dieser Situation habe ich die PDF-Dateien mit dem Adobe PDF-Drucker mit einer hohen Auflösung (1200 dpi +) und einem hochqualitativen Bild gedruckt (mit beliebiger Einstellung). Dann OCR das Bild-PDF-OCR und mir ein durchsuchbares und verarbeitbares PDF.

Wenn ich viele PDFs für Tausende von Seiten erstellen kann, habe ich mehrere PDF-Fenster gleichzeitig geöffnet, um dies gleichzeitig zu machen, indem mehrere Kerne für mehrere PDFs verwendet werden. Es ist eine PITA, aber es funktioniert.

Hoffentlich sind Ihre Dateien klein! Ich habe dies auf über 10.000 Seiten einmal gemacht (Bauvorschriftenbücher). Kein Spaß.

Danke für die Antwort . Aber wie kommt es, dass der PDF-Viewer es richtig interpretieren kann? Nishanth Lawrence vor 11 Jahren 0
Wahrscheinlich, weil die Kodierung in das PDF eingebettet ist, nicht das Programm. Damon vor 11 Jahren 0