Ist BOM (Byte Order Mark) ein Steuerzeichen?

660
JohnDoea

Ich weiß, dass es in Computern vier Arten von Zeichen gibt:

  1. Normale Zeichen (Zahlen oder typische Buchstaben).
  2. Steuerzeichen (Zeichen, mit denen bewirkt wird, wie ein Dokument von einem Roboter oder einem Programm analysiert wird), z. B. Line FInish (LF) oder Carriage Return (CR).
  3. Metazeichen (jedes Zeichen, das etwas anderes als sich selbst darstellt).

Können wir sagen, dass die Stücklistenzeichen auch Steuerzeichen wie LF oder CR sind?

4
Sie sagen "Es gibt 4 Arten von Zeichen" und dann nur 3 ... DavidPostill vor 7 Jahren 0

2 Antworten auf die Frage

2
DavidPostill

Können wir sagen, dass die Stücklistenzeichen auch Steuerzeichen wie LF oder CR sind?

Nein, es ist eher eine Unterschrift:

F: Was ist eine Stückliste?

A: Eine Byte-Order-Marke (BOM) besteht aus dem Zeichencode U + FEFF am Anfang eines Datenstroms, wo sie als Signatur verwendet werden kann, die die Byte-Reihenfolge und die Kodierungsform vorwiegend unmarkierter Klartextdateien definiert. Bei einigen Protokollen höherer Ebenen kann die Verwendung einer Stückliste zwingend (oder verboten) im Unicode-Datenstrom sein, der in diesem Protokoll definiert ist.

Quellen- FAQ - UTF-8, UTF-16, UTF-32 und Stückliste


In Ihrer Frage geben Sie an:

Steuerzeichen (Zeichen, mit denen bewirkt wird, wie ein Dokument von einem Roboter oder einem Programm analysiert wird), z. B. Line FInish (LF) oder Carriage Return (CR).

Das oben ist falsch.

  1. LFsteht für Line Feed nicht Line Finish.

  2. Steuerzeichen haben nichts mit der Analyse eines Dokuments zu tun:

Ein Steuerzeichen oder ein Nichtdruckzeichen ist ein Codepunkt (eine Zahl) in einem Zeichensatz, der kein geschriebenes Symbol darstellt. Sie werden als Inband-Signalisierung verwendet, um andere Effekte als das Hinzufügen eines Symbols zum Text zu bewirken.

Source Control-Zeichen

1
Jim DeLaHunt

Unter Stückliste gehe ich davon aus, dass Sie den Unicode Byte Order Mark-Codepunkt bedeuten.

Sie erfinden Ihre eigenen Definitionen. Definieren Sie daher die Stückliste als beliebigen Typ.

Die Designer des Unicode-Standards haben ihre eigenen Definitionen. Siehe The Unicode Standard, Version 9.0.0, Abschnitt 3.4 Zeichen und Kodierung . Definition D10a definiert "Codepunkttyp" als "sieben grundlegende Klassen von Codepunkten im Standard: Grafik, Format, Kontrolle, Privater Gebrauch, Surrogat, Nichtzeichen, Reserviert". Diese Typen werden ausführlich in Kapitel 23 Sonderbereiche und Formatierungszeichen erläutert . Abschnitt 23.8 Specials definiert U + FEFF, die "Byte Order Mark", als Code Point Type von "Special".

Die Designer des Unicode-Standards verfügen also über eine Liste von 7 Codepunkttypen, und die Byte Order Mark hat den Typ "Special". Integrieren Sie das in Ihre eigene Definition, wie Sie möchten.