Wie erhält man CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen für den privaten Gebrauch verwendet?

417
Ben

Ich habe mehrere PDF-Dokumente (wie dieses ), die scheinbar mit chinesischen Standard-Ideogrammen geschrieben wurden, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den Unicode-Zusatzbereichen für den privaten Gebrauch codiert ist.

Gibt es einen zuverlässigen Weg, um aus den Zeichen für den privaten Gebrauch die entsprechenden CJK-Zeichen wiederzugeben?

1

1 Antwort auf die Frage

0
user930067

Der allgemeine Fluss ist wahrscheinlich

  • Schrift aus PDF extrahieren
  • Vergleichen Sie die Schriftart mit einer anderen bekannten Kodierung und prüfen Sie, ob es sich um eine dieser Arten handelt
  • Oder es könnte auch etwas sein, das tatsächlich privat genutzt wird
  • Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, ob sie weiß, um welche Kodierung es sich handelt. Andernfalls gehen Sie von der extrahierten Schriftart aus dem PDF-Format aus