Ich verwende derzeit re.findall, um Wörter nach dem '#' - Zeichen für Hash-Tags in einer Zeichenfolge zu suchen und zu isolieren:
%Vor% Sucht str1 und findet alle Hashtags. Dies funktioniert jedoch nicht so akzentuierte Zeichen wie diese: áéíóúñü¿
.
Wenn sich einer dieser Buchstaben in str1 befindet, speichert er den Hashtag bis zu dem Buchstaben davor. So wäre zum Beispiel #yogenfrüz
#yogenfr
.
Ich muss alle akzentuierten Buchstaben, die von Deutsch, Niederländisch, Französisch und Spanisch reichen, berücksichtigen, damit ich Hashtags wie #yogenfrüz
Wie kann ich das machen?
Versuchen Sie Folgendes:
%Vor%BEARBEITEN Überprüfen Sie den nützlichen Kommentar von Martijn Pieters.
Vielleicht möchten Sie auch
verwenden %Vor%Wie konvertiere ich all diese Escape-Zeichen in ihre jeweiligen Zeichen, als ob es einen Unicode à, wie konvertiere ich das in einen Standard-a? Nehmen wir an, Sie haben Ihren Unicode in eine Variable namens my_unicode geladen ... normalisieren à in a is this simple ...
importieren Unicode-Daten output = unicodedata.normalize ('NFD', my_unicode) .encode ('ascii', 'ignore') Explizites Beispiel ...
%Vor%Überprüfen Sie diese Antwort, es hat mir sehr geholfen: Wie Unicode akzentuierte Zeichen in reine Ascii ohne Akzente konvertieren?
Tags und Links python django regex hashtag non-ascii-characters