Wie erfolgt die Zeichencodierung in Sakura?

986
jonsca

Im Sakura-Editor können Sie eine .txtDatei mit UTF-8-Kodierung haben, die 2 Zeichen enthält, die im EUC-Zeichensatz nicht verfügbar sind.

Wenn ich .txtim Editor ein UTF-8 in EUC gespeichert habe, funktioniert alles gut und alle Zeichen werden korrekt angezeigt.

Weiß jemand, welche Logik der Editor verwendet, um dies zu erreichen?

1
Ich verfolge deine Frage nicht vollständig. Was sind Ihre 2 Zeichen, die "in EUC nicht verfügbar sind"? Die Quelle für diese App ist hier verfügbar: http://sakura-editor.svn.sourceforge.net/viewvc/sakura-editor/sakura/trunk/sakura_core/. Ich bin sicher, dass charcode.cpp / .h genau das Richtige für Sie ist. Sie können die gewünschte Funktionalität wahrscheinlich auch von ** libiconv ** erhalten. vor 14 Jahren 0

1 Antwort auf die Frage

0
Arjan

enthält 2 Zeichen, die im EUC-Zeichensatz nicht vorhanden sind

Wenn Sie zwei Zeichen ÿþ(Hex FF FE) oder þÿ(Hex FE FF) am Anfang der ersten Zeile sehen, wird die Datei in UTF-16 und nicht in UTF-8 codiert. Diese Zeichen sind dann eigentlich die " Byte-Order Mark " (BOM), die der Editor interpretieren, nicht anzeigen soll.

(Nur für den Fall, dass Sie drei Zeichen als Hexenzeichen EF BB BFam Anfang der ersten Zeile sehen, ist dies die Stückliste für UTF-8. Wenn Sie andere Zeichen sehen oder nicht am Anfang der ersten Zeile, können Sie das bitte Bearbeiten Sie Ihre Frage, um ein Beispiel hinzuzufügen.