Gemäß Unicode® Standard - Anhang # 31 (Unicode - Kennung und Muster - Syntax), ID_Start
und ID_Continue
Zeichenkategorie werden von der Unicode abgeleitet General_Category
(ganzem lesen UnicodeData Dateiformat und Unicode - Zeichendatenbank Artikel).
Siehe Tabelle 2. Eigenschaften für Lexikalische Klassen für Bezeichner (Digest of):
ID_Start
Zeichen werden aus der Unicode General_Category von Großbuchstaben, Kleinbuchstaben, Titelbuchstaben, Modifikatorbuchstaben, anderen Buchstaben, Buchstaben, Plus-Other_ID_Start
, Minus-Pattern_Syntax
undPattern_White_Space
Codepunkten abgeleitet.
- In Satznotation:
[[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
ID_Continue
Zeichen umfassenID_Start
Zeichen sowie Zeichen mit der Unicode General_Category von Nicht-Abstand-Markierungen, Abstände kombinierende Marken, Dezimalzahlen, Interpunktionszeichen, Plus-Other_ID_Continue
, Minus-Pattern_Syntax
undPattern_White_Space
Codepunkte.
- In Satznotation:
[[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
Wir können anhand sehen Other_ID_Start
, Other_ID_Continue
, Pattern_Syntax
und Pattern_White_Space
hier; zum Beispiel:
Die genaue Liste der Zeichen, die in den Eigenschaften
Other_ID_Start
und enthaltenOther_ID_Continue
sind, hängt von der Unicode-Version ab . Weitere Informationen finden Sie im Unicode-Standard-Anhang Nr. 44, „Unicode- Zeichendatenbank “ [UAX44] .
Parse UnicodeData.txt
, wende gültige reguläre Ausdrücke an, die aus der oben angegebenen Notation erstellt wurden . Bewerben Sie sich auf die richtige Version von UnicodeData.txt
, durchsuchen Sie den Index von / Public .
http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt ↑ ↑ ↑