Wenn Sie Zeichenklassen-Shorthands und eine Unicode-fähige Regex-Engine verwenden, können Sie dies tun. Die \w
-Klasse entspricht "Wortzeichen" (Buchstaben, Ziffern und Unterstriche).
Achten Sie auf einige Regex-Varianten, die das nicht so gut machen: JavaScript verwendet ASCII für \d
(Ziffern) und \w
, aber Unicode für \s
(Leerzeichen). XML macht es umgekehrt.
Tags und Links language-agnostic regex unicode non-english