Java 7, Regexes und zusätzliche Unicode-Zeichen

Question

Java 7, Regexes und zusätzliche Unicode-Zeichen

8

Der fragliche String hat ein zusätzliches Unicode-Zeichen "\ ud84c \ udfb4". Laut javadoc sollte der Regex-Abgleich auf Codepunkt-Ebene und nicht auf Zeichenebene erfolgen. Der folgende Teilcode behandelt jedoch den niedrigen Ersatz (\ udbb4) als Nicht-Wort-Zeichen und teilt es auf.

Vermisse ich etwas? Welche Alternativen gibt es, um Nicht-Wort-Zeichen aufzuteilen? (Java-Version "1.7.0_07")

Vielen Dank im Voraus.

%Vor%

Ausgabe:
original 功能絶

java regex unicode supplementary

user3088039 10.12.2013, 18:37

quelle

1 Antwort

Tags und Links java regex unicode supplementary

Django: Verwenden von Annotate, Count und Distinct in einem Queryset d3: Ein Unter-Array von Objekten

score 9 · Accepted Answer

Das sieht einfach wie ein Fehler in der Regex-Engine aus. Wenn Sie den Ausdruck \w verwenden, stimmt alles korrekt überein,

Malcolm 10.12.2013, 19:53

quelle