Das Beispiel-PDF ist korrekt codiert: Es enthält Font-to-Unicode-Tabellen. Wenn ich das Kopieren und Einfügen mit versuche mupdf
, wird der Bindestrich in Хлебникова im zweiten Absatz zu U + 00AD SOFT HYPHEN. Es sollte also möglich sein, Wörter auf Wunsch mit etwas Nachbearbeitung zu verknüpfen.
Leider ist für viele PDF-Tools die Unicode-Unterstützung defekt.
Das Erkennen von Leerzeichen in PDF-Dateien ist schwierig, da das PDF-Format keine Leerzeichen beschreibt, sondern nur beschreibt, wo Glyphen auf der Seite platziert werden. Der Space-Rates-Algorithmus in ebook-convert scheint also suboptimal zu sein, aber das hat nichts mit der Kodierung zu tun.
AFAIK mupdf
enthält kein Werkzeug zum Batch-Extrahieren von Text, aber beim Googeln wird beispielsweise dieser Drittanbietercode gefunden. Ich habe es nicht probiert.