Ich habe das pdf mit dekomprimiert mutool clean
und habe mir das angesehen. Das Problem scheint zu sein, dass es, wie in dieser stackoverflow-Frage beschrieben, schwierig ist, die Unicode-Kodierung für die Schriftarten zu verwenden. Aus diesem Grund verwenden die in der PDF-Datei enthaltenen Schriftarten eine andere Kodierung. Es enthält jedoch auch /ToUnicode
Objekte für jede Schrift mit einer komplizierten Zuordnung von den Schriftzeichen zu den Unicode-Zeichen.
Viele PDF-Viewer (wie z. B. xpdf
unter Linux) scheinen dieses komplizierte Mapping (oder zumindest ein Mapping mit einer solchen Komplexität nicht zu beachten, obwohl sie möglicherweise mit einfacheren Mappings arbeiten), weshalb Sie Müll bekommen beim Versuch, zu kopieren und einzufügen. Bei anderen PDF-Viewern (wie mupdf
) funktioniert es jedoch, wie ich bestätigt habe.
Das Problem befindet sich also im PDF-Viewer, nicht im Dokument. Außerdem passen PDFs und Unicode nicht so gut zusammen, wie Sie anhand der komplizierten Mittel erkennen können, die für die Übersetzung erforderlich sind.
Mögliche Lösungen: (1) Druck auf die Entwickler von PDF-Viewern, um \ToUnicode
Mappings vollständig zu unterstützen . Vielleicht reparieren Sie sie selbst für Open Source. (2) Die Verwendung eines bestimmten PDF-Viewers fördern, der mit den Zuordnungen arbeitet. (3) Versuchen Sie, Schriftarten innerhalb der PDF-Datei zu verwenden, bei denen die Glyphenkodierung mit der Unicode-Kodierung übereinstimmt. Dies scheint mit 16-Bit-Unicode-Codepunkten möglich zu sein (und die indischen Zeichen scheinen, soweit ich das beurteilen kann, 16-Bit zu sein), aber ich weiß nicht, wie gut das funktionieren wird oder welche Anwendung Sie zum Erstellen solcher PDFs verwenden sollten .