Wie erhält man CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen für den privaten Gebrauch verwendet?

Question

Wie erhält man CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen für den privaten Gebrauch verwendet?

417

Ben 2015-10-13 в 15:51

Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standard-Ideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den Unicode-Zusatzbereichen für den privaten Gebrauch codiert ist.

Gibt es einen zuverlässigen Weg, um aus den Zeichen für den privaten Gebrauch die entsprechenden CJK-Zeichen wiederzugeben?

1

1 Antwort auf die Frage

0

Accepted Answer · 2017-11-14 01:26:04

Der allgemeine Fluss ist wahrscheinlich

Schrift aus PDF extrahieren
Vergleichen Sie die Schriftart mit einer anderen bekannten Kodierung und prüfen Sie, ob es sich um eine dieser Arten handelt
Oder es könnte auch etwas sein, das tatsächlich privat genutzt wird
Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, ob sie weiß, um welche Kodierung es sich handelt. Andernfalls gehen Sie von der extrahierten Schriftart aus dem PDF-Format aus

Wie erhält man CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen für den privaten Gebrauch verwendet?

1 Antwort auf die Frage

Verwandte Probleme