Suche nach einer Kodierung, die ein gegebenes Zeichen für eine bestimmte Sequenz kodiert
Ich versuche herauszufinden, welche Kodierung eine Textdatei verwendet, die ich erhalten habe. Ich weiß, dass diese Kodierung é zu 0x8E kodiert .
Spezifische Frage: Welche Kodierungen stimmen möglicherweise überein?
Allgemeine Frage: Wie kann ich generell herausfinden, welche Kodierungen mit einigen Einschränkungen übereinstimmen, die als Paare von (Unicode-Zeichen, Byte-Reihenfolge) ausgedrückt werden?
uchardet hilft nicht: Es erkennt Windows-1252, aber das ist in meinem Fall offensichtlich falsch. Im Allgemeinen leistet ein solches Tool bei der Erkennung von Kodierungen eine schlechtere Arbeit als die Verwendung von Einschränkungen als externes Wissen.
Ich verstehe, dass konzeptionell jede Codierung denkbar ist, die é zu 0x8E und alles andere zu irgendetwas anderem codiert, aber ich möchte nur unter Codierungen suchen, die im Allgemeinen von Menschen verwendet werden. (Insbesondere in diesem Fall wahrscheinlich eine Codierung, die allgemein in der westeuropäischen Welt verwendet wird.)
Ich vermute, dies könnte beispielsweise mit Datendateien von uchardet, mit geschicktem Einsatz von grep oder ähnlichen Tools geschehen. Vorzugsweise wären die beteiligten Werkzeuge frei wie in der freien Sprache und auf Standard-GNU-Linux-Distributionen verfügbar.
0 Antworten auf die Frage
Verwandte Probleme
-
6
Unicode, Unicode Big Endian oder UTF-8? Was ist der Unterschied? Welches Format ist besser?
-
3
Vim: Wie behandelt man Unicode-Dateien mit Text in mehreren (mehr als zwei) Sprachen?
-
4
Ubuntu Linux: Kann ich standardmäßig Klartext einfügen?
-
8
Wie geben Sie Unicode-Zeichen mithilfe von Hexadezimalcodes ein?
-
3
Wie kann man Unicode-Zeichen in Emacs sichtbar machen?
-
2
Bekommen, dass Dingbats in Firefox 3 angezeigt werden?
-
1
Speichern von "Bush versteckte die Fakten" im Merkzettel
-
1
Wie kann ich mit * nix-Befehlszeilen-Tools mehrere Dateien in UTF-8-Codierung konvertieren?
-
6
Wie kann ich Unicode-Text in Notepad ++ bearbeiten?
-
2
Warum sind Craigslist-Posts voller Fragezeichen?