Zurücksetzen von Unicode-Zuordnungen in PDF-Text

448
Aaron Brick

PDF-Dateien enthalten häufig Zeichensätze ohne explizite Zuordnung zu Unicode, sodass wir keinen korrekten Text aus ihnen extrahieren können - verfluchen Sie, Adobe!

Ich muss PDFs stapelweise auf einem Linux-System verarbeiten. Ich habe hier einige Beispiele mit Trennlinien, für die jedoch kein Werkzeug, das ich ausprobiert habe, die Trennstriche identifizieren kann. Die Ergebnisse enthalten immer viele gebrochene Halbwörter.

Gibt es eine Möglichkeit, fehlende Zeichenzuordnungen beizutragen, anstatt die undefinierten Symbole zu löschen?

0
Bitte fügen Sie den obigen Kommentar in den Fragenkörper ein ([bearbeiten] Sie die Frage). Alle relevanten Informationen sollten dort und nicht in einem Kommentar enthalten sein. Kamil Maciorowski vor 6 Jahren 0

1 Antwort auf die Frage

1
dirkt

Das Beispiel-PDF ist korrekt codiert: Es enthält Font-to-Unicode-Tabellen. Wenn ich das Kopieren und Einfügen mit versuche mupdf, wird der Bindestrich in Хлебникова im zweiten Absatz zu U + 00AD SOFT HYPHEN. Es sollte also möglich sein, Wörter auf Wunsch mit etwas Nachbearbeitung zu verknüpfen.

Leider ist für viele PDF-Tools die Unicode-Unterstützung defekt.

Das Erkennen von Leerzeichen in PDF-Dateien ist schwierig, da das PDF-Format keine Leerzeichen beschreibt, sondern nur beschreibt, wo Glyphen auf der Seite platziert werden. Der Space-Rates-Algorithmus in ebook-convert scheint also suboptimal zu sein, aber das hat nichts mit der Kodierung zu tun.

AFAIK mupdfenthält kein Werkzeug zum Batch-Extrahieren von Text, aber beim Googeln wird beispielsweise dieser Drittanbietercode gefunden. Ich habe es nicht probiert.