Wo finde ich Unicode 5-Zeichen aus einer bestimmten Kategorie?

489
hydroper

Ich muss alle Zeichen aus den Kategorien ID Start und ID Continue in Unicode auflisten. Wo kann ich das für eine bestimmte Version von Unicode tun (in diesem Fall Unicode 5)?

Ich denke, dass die Site https://codepoints.net dies für bestimmte Unicode-Versionen nicht zulässt.

1
Hilft [Unicode 5.0.0] (http://www.unicode.org/versions/Unicode5.0.0/)? Siehe die Links auf der linken Seite. DavidPostill vor 7 Jahren 1
@DavidPostill Hum, ja, ich habe es gelesen, aber ich bin mir nicht sicher, ob ich die verlinkten Dokumente leicht verstehen kann. Ich möchte direkt zu den IDS- und IDC-Zeichen wechseln oder einfach wissen, ob sie seit Unicode 2.0 nicht geändert wurden ... hydroper vor 7 Jahren 0
Ich kann nicht mehr wirklich helfen, weil ich nicht weiß, was IDS- und IDC-Kategorien sind, und ich die Frage nicht vollständig verstehe. : / DavidPostill vor 7 Jahren 0
[Vorschlag zur Neudefinition des Umfangs ideografischer Beschreibungssequenzen und zur Kodierung von vier weiteren ideographischen Beschreibungszeichen] (http://www.unicode.org/L2/L2009/09171-n3643-ideo-desc.pdf) und möglicherweise einer früheren Version von [CJKRadicals-9.0.0.txt] (http://www.unicode.org/Public/9.0.0/ucd/CJKRadicals.txt) JosefZ vor 7 Jahren 1
@JosefZ Sorry ... Ich habe vergessen zu spezifizieren, dass IDS ID Start wäre und IDC ID Fortfahren wäre. Sie würden mit der ECMAScript 3- oder 4-Spezifikationsgrammatik für Bezeichner passen. hydroper vor 7 Jahren 0

1 Antwort auf die Frage

2
JosefZ

Gemäß Unicode® Standard - Anhang # 31 (Unicode - Kennung und Muster - Syntax), ID_Startund ID_ContinueZeichenkategorie werden von der Unicode abgeleitet General_Category(ganzem lesen UnicodeData Dateiformat und Unicode - Zeichendatenbank Artikel).

Siehe Tabelle 2. Eigenschaften für Lexikalische Klassen für Bezeichner (Digest of):

  • ID_StartZeichen werden aus der Unicode General_Category von Großbuchstaben, Kleinbuchstaben, Titelbuchstaben, Modifikatorbuchstaben, anderen Buchstaben, Buchstaben, Plus- Other_ID_Start, Minus- Pattern_Syntaxund Pattern_White_SpaceCodepunkten abgeleitet.

    • In Satznotation:
    • [[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
  • ID_ContinueZeichen umfassen ID_StartZeichen sowie Zeichen mit der Unicode General_Category von Nicht-Abstand-Markierungen, Abstände kombinierende Marken, Dezimalzahlen, Interpunktionszeichen, Plus- Other_ID_Continue, Minus- Pattern_Syntaxund Pattern_White_SpaceCodepunkte.

    • In Satznotation:
    • [[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]

Wir können anhand sehen Other_ID_Start, Other_ID_Continue, Pattern_Syntaxund Pattern_White_Spacehier; zum Beispiel:

Die genaue Liste der Zeichen, die in den Eigenschaften Other_ID_Startund enthalten Other_ID_Continuesind, hängt von der Unicode-Version ab . Weitere Informationen finden Sie im Unicode-Standard-Anhang Nr. 44, „Unicode- Zeichendatenbank[UAX44] .

Parse UnicodeData.txt, wende gültige reguläre Ausdrücke an, die aus der oben angegebenen Notation erstellt wurden . Bewerben Sie sich auf die richtige Version von UnicodeData.txt, durchsuchen Sie den Index von / Public .

 http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt ↑ ↑ ↑ 
Vielen Dank, danke, ich denke, mit Ihrer Hilfe kann ich die Code-Punkte für `ID_START` und` ID_CONTINUE` abrufen. Ich werde auch versuchen, sie mit ECMAScript 4 einzurichten ... hydroper vor 7 Jahren 0