Das Öffnen der UTF-8-Datei mit UTF-16-Codierung in gedit führt zu lesbarem Chinesisch

749
H.A. Sanger

Ich weiß, das ist eigentlich kein Problem, aber ich war wirklich neugierig, warum das so ist.

Wie kann man dieses Phänomen reproduzieren?

Öffnen Sie gedit und geben Sie etwas ein (ich habe Lorem Ipsum-Text von lipsum.com verwendet). Speichern Sie die Datei und schließen Sie gedit.

Öffnen Sie es erneut und klicken Sie auf "Öffnen" und dann auf "Andere Dokumente ...". Klicken Sie auf die gerade erstellte Datei. Bevor Sie auf Öffnen klicken, klicken Sie auf Zeichenkodierung und wählen Sie UTF-16 aus.

Sobald die Datei geöffnet ist, werden im Editor einige Chinesen angezeigt, die mit zufälligen, nicht darstellbaren Unicode-Zeichen gemischt sind. Nun beginnt der wirklich seltsame Teil: Öffnen Sie Google Translate und fügen Sie den Chinesen ein. Vergewissern Sie sich, dass Sie "Chinesisch" als Sprache gewählt haben.

Je nach Text sehen Sie fast überall verständliches (und sogar normales) Englisch. In meinem Fall habe ich gesehen: "Weitere Informationen finden Sie auf unserer Website unter: www.globalcouncil.org" und "Dies ist das erste Mal, dass Sie uns in diesem Bereich besuchen. Sie sind herzlich eingeladen, unsere Website zu besuchen . " Siehe den vollständigen Text auf Pastebin.

Andere Beobachtungen

  • Bei der Übersetzung des Textes über die Website unter freetranslation.com wird der Text teilweise umgekehrt: "Bild ⁥ Makro ⁴ 桴 礠 ⁴ ⁴ ⁴ ⁴ ⁴ ⁴ ⁴ prices prices prices prices prices prices prices Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ Ɱ
  • Wenn dieser Text umgekehrt ist, stimmt er tatsächlich mit dem ursprünglichen Text überein, den ich eingegeben habe, als die Kodierung UTF-8 war.
  • Der umgekehrte Text scheint sich auch so zu verhalten, als wäre er tatsächlich rückwärts; Wenn ich etwas am Ende des Textes eingebe, erscheint es am Anfang.
  • Einige Sätze klingen so normal (und manchmal komisch), dass es so aussieht, als sei dies keine Seltsamkeit der Übersetzungssoftware. Zum Beispiel: "Suppe kann nicht zur Behandlung akuter oder chronischer obstruktiver Lungenerkrankungen verwendet werden." Dies war nicht im Originaltext, den ich eingefügt habe.
  • Ich habe diese Frage in LinuxQuestions gefunden, die das Phänomen reproduzieren, wenn Sie Google Translate verwenden. Hier sind einige der verständlichen Engländer: "Hier können Sie Ihre Lieblingsschüssel finden."

Die Frage

Warum passiert dies? Und warum klingen die erzeugten Sätze so realistisch? Ist es eine List von gedit oder den Übersetzern? (Es wäre schön, wenn ein chinesischer Muttersprachler mir seine Meinung sagen könnte.)

Dies ist meine erste Frage zu Super User, bitte seien Sie nicht hart mit mir. Danke im Voraus.

1
Fast sicher stellt der Übersetzer fest, dass er kein Chinesisch lesen kann, und stellt dann fest, dass UTF-8 verstümmelt ist, und "übersetzt" es für Sie. Ich bin zu 99% sicher, dass die Umkehrung irgendwo in diesem Text durch eine RTL-Überschreibung verursacht wird. wizzwizz4 vor 6 Jahren 1

1 Antwort auf die Frage

1
Ng Sek Long

Als chinesischer Sprecher kann ich Ihnen sagen, dass diese chinesischen Schriftzeichen alle ungültig sind und Müll sind (entschuldigen Sie, dass Sie das Rätsel gebrochen haben). Das Problem tritt hier auf:

Nun beginnt der wirklich seltsame Teil: Öffnen Sie Google Translate und fügen Sie den Chinesen ein. Vergewissern Sie sich, dass Sie "Chinesisch" als Sprache gewählt haben

Google translate for Chinese <> English ist nicht so zuverlässig wie es scheint. Google hat noch keine sehr genaue Chinesisch-Englisch / Englisch-Chinesisch-Übersetzung, aufgrund der völlig unterschiedlichen Sprachstruktur von Chinesisch und Englisch. Um dein Beispiel zu zitieren.

Bild ⁥ Makro prices 桴 礠 樠 mit Jagd⁴ prices und die Preise sind 礠 楬 挠 Makro Ɱ 挠 Eine gängige Phrase

Alle diese chinesischen Wörter machen keinen Sinn. Google übersetzt jedoch das Gefühl, dass dort tatsächlich etwas Nützliches eingefügt wird, sodass Wörter einfach zufällig in die Datenbank eingefügt werden.

Lassen Sie uns diese beiden herausnehmen "挠 楬", die auf lange Sicht eine winzige Verbindung haben könnten.

"挠" kann Blume gießen "挠 水"

Und "楬" kann eine Art Baum sein. Vielleicht wässert "挠 楬" eine Art Baum (obwohl wir niemals chinesische Wörter wie oben beschrieben verwenden)

Aber Google übersetzen war wie "挠 楬 bedeutet Flexibilität"

Also ja ... Das Problem ist nur, dass Google Translate schlecht ist, das ist alles.

Was dies angeht:

"Weitere Informationen finden Sie auf unserer Website unter: www.globalcouncil.org" und "Dies ist das erste Mal, dass Sie uns in diesem Bereich besuchen. Sie sind herzlich eingeladen, unsere Website zu besuchen."

Ich vermute, Sie kopieren diesen Text versehentlich zusammen mit den chinesischen Wörtern.

Und für die ganzen rückwärtigen Worte denke ich, dass wizzwizz4 diese Lösung bereits für Sie bereitstellt