Java 7, Regexes und zusätzliche Unicode-Zeichen

8

Der fragliche String hat ein zusätzliches Unicode-Zeichen "\ ud84c \ udfb4". Laut javadoc sollte der Regex-Abgleich auf Codepunkt-Ebene und nicht auf Zeichenebene erfolgen. Der folgende Teilcode behandelt jedoch den niedrigen Ersatz (\ udbb4) als Nicht-Wort-Zeichen und teilt es auf.

Vermisse ich etwas? Welche Alternativen gibt es, um Nicht-Wort-Zeichen aufzuteilen? (Java-Version "1.7.0_07")

Vielen Dank im Voraus.

%Vor%

Ausgabe:
original 功能 絶

user3088039 10.12.2013, 18:37
quelle

1 Antwort

9

Das sieht einfach wie ein Fehler in der Regex-Engine aus. Wenn Sie den Ausdruck \w verwenden, stimmt alles korrekt überein,

Malcolm 10.12.2013, 19:53
quelle

Tags und Links