Wie kann ich die Kodierung dieses beschädigten chinesischen Textes herausfinden, die ein Online-Tool korrekt korrigiert?

651
rubystallion

Ich habe einen Text in vereinfachtem Chinesisch, der, wenn er als UTF-8 gelesen wird, mit ´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼dem Online-Tool von MandarinTools (erstes Suchergebnis für Reparatur beschädigter chinesischer E-Mail ) korrigiert wird 从很久以前开始, aber es ist nicht klar, wie es behoben wurde. Durch die Verwendung des Online-Tools und eines Hex-Editors weiß ich, dass jedes Zeichen als 32-Bit-Länge mit fester Länge codiert ist:

c2b4 c393 从 c2ba c39c 很 c2be c383 久 c392 c394 以 c387 c2b0 前 c2bf c2aa 开 c38a c2bc 始 

Dies zeigt auch, dass ein Zeichen als zwei 16-Bit-Wörter im Bereich c2 ** - c3 ** codiert ist. Bei UTF-16 ist das erste 16-Bit-Wort für diese Zeichen immer 0. UTF-8 verwendet nur 24 Bit pro Zeichen und Codepage 936 hier nur 16 Bit pro Zeichen. Mit welcher Methode kann ich die korrekte Kodierungskonvertierung ermitteln?

UTF-8-Darstellung:

e4bb 8e 从 e5be 88 很 e4b9 85 久 e4bb a5 以 e589 8d 前 e5bc 80 开 e5a7 8b 始 

cp936 darstellung:

b4d3 从 badc 很 bec3 久 d2d4 以 c7b0 前 bfaa 开 cabc 始 
2

0 Antworten auf die Frage