Binär- und Textdaten werden nicht getrennt: Es handelt sich lediglich um Daten . Es hängt von der Interpretation ab, die sie zum einen oder anderen macht. Wenn Sie binäre Daten (z. B. eine Bilddatei) in einem Texteditor öffnen, ist ein Großteil davon nicht sinnvoll, da sie nicht Ihrer gewählten Interpretation (als Text) entsprechen.
Was Sie Text nennen, ist eine Teilmenge des möglichen Dateiinhalts: Daten, die in einem bestimmten Zeichensatz in lesbare Zeichen übersetzt werden.
In ASCII können Sie beispielsweise sehen, dass von 128 "zulässigen" Werten nur etwa die Hälfte Buchstaben und Zahlen sind, 30 Interpunktionszeichen und der Rest Steuerzeichen . Die letztere Gruppe wird in Textdateien nicht viel verwendet und sie haben keine wirklich gute Textdarstellung. Einige davon sind Tabulator- und Zeilenumbruch- Zeichen, bei denen Texteditoren bereits kreativ sein müssen, um sie anzuzeigen.
Einige Texteditoren haben Optionen, um Leerzeichen explizit anzuzeigen. Sie werden dann zusätzlich zu ihrem regulären Formatierungsverhalten (was auch nur die Interpretation dieser Zeichen ist) als Zeichen gezeichnet .
Reines ASCII interpretiert nur 128 Werte. Die zum Speichern dieser Informationen verwendeten Bytes haben jeweils 256 mögliche Werte, daher ist die Hälfte der möglichen Werte in ASCII nicht zulässig. Diese werden z. B. in regionenspezifischen Zeichensätzen wie Latin 1 verwendet, in ASCII jedoch nicht definiert. Sie haben keine nützliche Darstellung in einem Text-Viewer, der nur mit ASCII umgehen kann.
Binärdaten werden normalerweise nicht als Text interpretiert. In diesen Dateien werden also häufig alle möglichen Byte-Werte gefunden. Alles andere wäre verschwenderisch (und deshalb können Sie Text sehr gut komprimieren). Bilddateiformate sind kompliziert und werden normalerweise nicht als Text angezeigt, sodass sie nicht lesbar sein müssen.
Da es keine allgemeine Dateninterpretation (Zeichensatz) gibt, die alle möglichen Werte lesbaren Zeichen zuordnet, und da dies ohnehin keinen Sinn ergibt (da es sich nicht um lesbaren Text handelt), werden wichtige Teile als Kauderwelsch dargestellt.
Ein Hex-Editor wählt eine andere Darstellung für die Daten: Er zeigt jedes Byte als zwei Hexadezimalziffern an . Es ist nur eine andere Darstellung und eine mit einem leicht lesbaren Zeichensatz: Alle 256 möglichen Byte-Werte können als zwei Hex-Ziffern dargestellt werden.
Da es eine einfache Zuordnung von Binärdaten zu Hexadezimalzahlen und umgekehrt gibt (4 Binärziffern zu / von einer Hexadezimalziffer) und Binärdaten sehr wenige Informationen pro Ziffer enthalten, ist Hexadezimalzeichen in der Regel die bevorzugte Methode für Menschen, Binärdaten zu lesen, es sei denn, es gibt bestimmte Gründe, eine andere Darstellung zu bevorzugen.
Einige Texteditoren verfügen möglicherweise über einen Hex-Editor-Modus und eine Heuristik, bei der versucht wurde, festzustellen, ob eine Datei Text oder Binärdatei ist, und wählt automatisch den einen oder den anderen Modus aus. Dies kann jedoch schwierig sein, um richtig zu sein, und es ist keine spezifische Eigenschaft der Datei, die besagt, ob es sich um die eine oder andere Art handelt.
Bei einigen FTP-Clients müssen Sie angeben, welche Dateiendungen für Textdaten verwendet werden . Diese Programme ändern dann den Dateiinhalt an das Betriebssystem des Computers, mit dem Sie verbunden sind, da Windows eine andere Zeilenende-Zeichenfolge ( CR/LF
) als Linux und Unix (einschließlich Mac OS X; LF
) verwendet.