Wie konvertiert man diesen String mit GNU / Linux-Tools in Japanisch?

Question

Wie konvertiert man diesen String mit GNU / Linux-Tools in Japanisch?

558

Misaki 2018-03-30 в 11:11

Hier ist eine Zeichenfolge aus einer Textdatei:

@ ™ Tda®®ÆÆ N ƒƒƒŒŒ gŒŒŒrƒŒƒjŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver Å Å Å Åjjj j

Es enthält viele nicht druckbare Zeichen und wird hier kopiert: https://pastebin.com/TUG4agN4

Mit https://2cyr.com/decode/?lang=en können wir bestätigen, dass es sich wie folgt übersetzt:

☆ Tda 式照れミクストート・ビキニニ 1 1 1 1 1 1 1 1 1 1 1 1 ニルルルルルルルルル .1 .1

Dies ist mit Quellcodierung = SJIS (shift-jis), angezeigt als Windows-1252.

Aber wie können wir dasselbe Ergebnis ohne Website erzielen? Das relevante Werkzeug ist iconv, aber etwas in der Werkzeugkette ist defekt. Wenn ich versuche, aus der Quelltextdatei zu katzen oder sie als Standardeingabe mit '<' in der Bash zu verwenden, wird eines der 'iconv's in der Kette schnell fehlerhaft. Wenn ich den obigen String aus dem Texteditor gedit (das Lesen der Datei als utf-16le) oder als Ausgabe von iconv mit utf16-to-utf8-Konvertierung kopiert, ist das Ergebnis zwar nahe, aber immer noch falsch:

@ 儺式式れミクストト [ト E ビキ 1 1 1 1d 1d 1d 1d 1d 1 1 1 1 1 .1 .1 .1 .1 .1 .1 .1 .1 .1 .1 .1

Einige Beweise dafür, dass die Werkzeugkette versagt:

$ cat 'utf8.txt' | head -1

@ ™ Tda®®ÆÆ ~NƒƒƒƒŒ gŒŒŒrŒƒverjŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver Å Å Å Å ”Å Å” Å ”

$ cat 'utf8.txt' | head -1 | iconv -f utf8 -t utf16

@ "! Tda} ~ N X g R [ g E r L jver1.11d1.d2 i r L j f Ver9 ver.1.1 } z "z j

Beachten Sie beim Start drei ungültige Zeichen.

$ cat 'utf8.txt' | head -1 | iconv -f utf8 -t utf16 | iconv -f utf16 -t windows-1252

iconv: unzulässige Eingabesequenz an Position 2

$ echo "@ ™ Tda®®Æ ~ ~ ~ ƒXƒƒ gE ƒƒ verververververververververververver.d.d.d.d.d.d.d.d.d ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver ver.1 ³ ³ ³ ³” ”” "" "" "" "" "" "" "" "" "" "" ”” ” iconv -f utf8 -t utf16

@ "! Tda} ~ N X g R [ gE rverL jver1.11d1.d2i r L j f 9 ver.1.1 } z "z j

Beachten Sie beim Start zwei ungültige Zeichen, andere Unterschiede. Die vom Terminal kopierte Sequenz stimmt mit der im Texteditor angezeigten Zeichenfolge überein, die von find (ctrl-F) gefunden wird. Dies ist die gleiche Zeichenfolge, die auf 2cyr.com das richtige Ergebnis liefert.

Wenn Sie den letzten Befehl mit '| iconv -f utf16 -t windows-1252 | iconv -f shift-jis -t utf8' erweitern, erhalten Sie das nahe, aber unkorrekte Ergebnis, das oben zitiert wurde.

Wenn ich versuchte, eine Datei mit dem Namen "Beispielstring" zu erstellen und das Tool "convmv" darauf zu verwenden, sagte convmv, der Ausgabedateiname enthielt "Zeichen, die nicht dem POSIX-Dateisystem entsprechen. Dies kann zu Datenverlust führen." Die meisten Dateinamen, die mit UTF-8 ungültig sind, geben diese Warnung nicht aus.

Gibt es eine Bitsequenz, die das Piping in Bash nicht verarbeiten kann? Wenn nicht, warum funktioniert die Werkzeugkette nicht?

Anscheinend besteht der Unterschied darin, dass bash keine nicht gedruckten Zeichen (die Kästen mit Zahlen) in die Befehlszeile einfügt. vielleicht kann 'readline' nicht damit umgehen? Das Ergebnis der Annäherung legt jedoch nahe, dass die Konvertierungsreihenfolge in der Toolchain korrekt ist. Warum funktioniert sie dann nicht?

Die Originaldatei, deren Dateiname auf andere Weise verschlüsselt wurde (verfällt nach 30 Tagen): https://ufile.io/oorcq

2

1 Antwort auf die Frage

3

Accepted Answer · 2018-03-30 14:23:59

Pipes sind eine OS-Funktion, die mit Byte-Puffern arbeitet und deren Inhalt in keiner Weise interpretiert. Weitergeleiteter Text geht also nicht durch Bash und vor allem niemals durch "readline". Text, der als Befehlszeilenargument eingefügt wird, tut dies. (Und ja, sowohl readline als auch das Terminal können als Sicherheitsmaßnahme Steuerzeichen ausfiltern.)

Ihre Datei ist eigentlich eine Mischung aus zwei Kodierungen, windows-1252und iso8859-1aufgrund der unterschiedlichen Möglichkeiten verwenden sie den C1-Steuerzeichenblock (0x80..0x9F).

ISO 8859-1 verwendet diesen gesamten Bereich für Steuerzeichen, und die Bytes 0x80..0x9F entsprechen den Unicode-Codepunkten U + 0080..U + 009F.
Windows-1252 kann keine C1-Steuerzeichen darstellen. Es verwendet den größten Teil dieses Bereichs für druckbare Zeichen und hat einige "Löcher" - dh Byte-Werte, denen nichts zugewiesen wurde (0x81, 0x8D, 0x8F, 0x90, 0x9D).
Ansonsten sind die beiden Kodierungen in den Bereichen 0x00..0x7F und 0xA0..0xFF identisch.

Nehmen wir die erste Zeile Ihrer "schlechten" Eingabedatei, dekodiert von UTF-16 in Unicode-Text und mit nicht druckbaren Escape-Zeichen:

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

Sie können \u0081(U + 0081) sehen, welche das Byte 0x81 in ISO 8859-1 darstellt, aber in Windows-1252 nicht codiert werden kann.
Sie können auch das Symbol ƒ(U + 0192) sehen, das in Windows-1252 0x83 zugeordnet ist, in ISO 8859-1 jedoch überhaupt nicht vorhanden ist.

Der Trick ist also, wenn möglich Windows-1252 und ISO 8859-1 als Fallback zu verwenden, wobei für jeden Codepoint individuell entschieden wird. (libiconv könnte dies über 'ICONV_SET_FALLBACKS' tun, das CLI- iconvTool jedoch nicht.) Es ist einfach, ein eigenes Tool zu schreiben:

#!/usr/bin/env python3 with open("/dev/stdin", "rb") as infd: with open("/dev/stdout", "wb") as outfd: for rune in infd.read().decode("utf-16"): try: chr = rune.encode("windows-1252") except UnicodeEncodeError: chr = rune.encode("iso8859-1") outfd.write(chr) # outputs shift-jis

Beachten Sie, dass nur die Hälfte Ihrer Eingabedatei Shift-JIS falsch codiert ist. Die andere Hälfte (Englisch) ist perfekt in UTF-16; Zum Glück wird Shift-JIS es durchlaufen, so dass kein manuelles Teilen erforderlich ist:

#!/usr/bin/env python3 with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd: with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd: buf = b"" for rune in infd.read(): try: buf += rune.encode("windows-1252") except UnicodeEncodeError: try: buf += rune.encode("iso8859-1") except UnicodeEncodeError: buf += rune.encode("shift-jis") outfd.write(buf.decode("shift-jis"))

Wie konvertiert man diesen String mit GNU / Linux-Tools in Japanisch?

1 Antwort auf die Frage

Verwandte Probleme