Unicode für wissenschaftliche Kommunikation - nützlich, aber inkonsistent? (Speziell hochgestellt / tiefgestellt)

413
kdb

Unicode bietet einen anständigen Zeichensatz für wissenschaftliche Zwecke. Es gibt Dinge wie die spitzen Klammern, die in der Quantenmechanik und in der statistischen Physik (| ψ⟩, ⟨T) häufig verwendet werden, Symbole für häufig verwendete Konstanten (ℏ). ).

Ich bin immer etwas verblüfft über die Inkonsistenz der Letzteren. Wenn Sie z. B. bei Wikipedia suchen, werden Sie feststellen, dass eine große Teilmenge des lateinischen Alphabets als Subskription verfügbar ist, jedoch nicht alle. Ich verstehe zwar, warum die Leute nicht einfach ALLE Zeichen aus allen Alphabeten als Super- und tiefgestellte Version in Unicode einfügen möchten, aber ich wundere mich wirklich, warum das lateinische Alphabet nur für tiefgestellte und für hochgestellte weniger als halbe Zahl eingefügt wurde.

Gibt es irgendwelche Gründe dafür oder ist es eine tatsächliche Auslassung?

PS: Ich fürchte, dies ist möglicherweise keine gute Frage für einen Superuser, aber ich könnte mir keine passendere Stack-Exchange-Site vorstellen.

PPS: Ich schreibe solche Symbole mit der "TeX" -Eingabemethode von Emacs und alternativ dazu ein Autohotkey-Skript, das aus seiner Symboltabelle generiert wird.

1

1 Antwort auf die Frage

1
Jukka K. Korpela

Unicode ist ein Standard für die Kodierung von Klartext . Daher ist jedes in mathematischen Texten verwendete Symbol ein Kandidat für die Kodierung als Unicode-Zeichen, und eine sehr große Anzahl solcher Zeichen wurde kodiert. Der Prozess wird fortgesetzt, und neue Zeichen werden hinzugefügt, wenn sie tatsächlich in den Benutzer übernommen wurden.

Hochstellen und Subskribieren ist an sich kein einfacher Text, sondern „Rich Text“, genau wie Kursivschrift, Fettschrift, bestimmte Schriftarten, Farben, Hintergründe, Ränder und animierte Buchstaben. Ein hochgestelltes "2" ist immer noch das Zeichen "2", nur in angehobener Position und in der Regel kleiner. Aus dieser Perspektive könnten wir sagen, dass Hoch- und Tiefschüsse überhaupt nicht codiert werden müssen. Es können normale Zeichen verwendet werden, und Geräte außerhalb der Klartextebene oder "Protokolle höherer Ebene" können verwendet werden, z. B. Befehle in einem Textverarbeitungsprogramm, Stileinstellungen, HTML- oder MathML-Markup usw.

Die Frage ist also wirklich, warum in Unicode überhaupt Superskripte und Subskripte eingefügt wurden und nicht, warum sie keine einheitliche Menge bilden. Ein Grund ist, dass andere Zeichencodes hochgestellte und tiefgestellte Zeichen enthalten. Unicode muss sie einschließen. Ein weiterer Grund wird in der Anmerkung Unicode in XML und anderen Auszeichnungssprachen angegeben: „Super- und tiefgestellte Buchstaben und Ziffern sind in manchen Formen der phonetischen oder phonemischen Transkription recht häufig, wobei die Verwendung von Stilen unpraktisch und anfällig für Datenintegritätsprobleme ist, wenn sie in Nur-Text-Format exportiert werden. Insbesondere bei über- oder tiefgestellten Buchstaben in der phonetischen Transkription würde ein Wechsel von hochgestellten zu hochgestellten Zeichen in regulären Stil die Bedeutung ändern. Beachten Sie, dass eine solche Verwendung bei der Transkription nicht auf Buchstaben beschränkt ist: Hochgestellte kleine Ziffern werden oft verwendet, um den Ton anzuzeigen. Wenn sie für diese Zwecke verwendet werden, sollten diese Zeichen beibehalten werden und Markup sollte nicht verwendet werden. “

Doch das Hinzufügen Hoch- und Tief Version von jedem würde Zeichens bedeutet etwa 200.000 Zeichen hinzuzufügen. Als nächstes würde jemand kursive und fette Versionen eines beliebigen Zeichens haben, und so weiter, und uns würde der Codierungsraum ausgehen. Zuvor hatten Typographen Nervenzusammenbrüche: Sie wollen wirklich keine Glyphen für solche Zeichen entwerfen (von denen die meisten niemals verwendet werden).

Aus diesem Grund fügt das zitierte Dokument Folgendes hinzu: „Bei der Verwendung im mathematischen Kontext (MathML) wird empfohlen, die Stilmarkierung für Superskripte und Subskripte konsistent zu verwenden. Das liegt daran, dass das mathematische Layout nicht nur einzelne Symbole, sondern ganz normale Ausdrücke auf reguläre, verschachtelte Weise hoch- oder tiefstellen kann. “

Danke, das beantwortet die Frage ziemlich gut. Im Grunde ist Unicode zwar eine schöne Lösung, um besser aussehende Mathematik in E-Mails zu integrieren, die Verwendung für Super- / Subskripte ist jedoch eine Bereicherung für die Absicht. kdb vor 9 Jahren 0