Der fragliche String hat ein zusätzliches Unicode-Zeichen "\ ud84c \ udfb4". Laut javadoc sollte der Regex-Abgleich auf Codepunkt-Ebene und nicht auf Zeichenebene erfolgen. Der folgende Teilcode behandelt jedoch den niedrigen Ersatz (\ udbb4) als Nicht-Wort-Zeichen und teilt es auf.
Vermisse ich etwas? Welche Alternativen gibt es, um Nicht-Wort-Zeichen aufzuteilen? (Java-Version "1.7.0_07")
Vielen Dank im Voraus.
%Vor% Ausgabe:
original 功能 絶