Ich möchte die Anzahl der Vorkommen bestimmter Wörter in einem Datenrahmen zählen. Ich kenne "str.contains"
%Vor%Momentan verwende ich den obigen Code. Gibt es eine Methode, um den regulären Ausdruck abzugleichen und die Anzahl der Vorkommen zu ermitteln? In meinem Fall habe ich einen großen Datenrahmen und ich möchte ungefähr 100 Zeichenketten zusammenbringen.
Die Methode str.contains
akzeptiert einen regulären Ausdruck:
Zum Beispiel:
%Vor%Um die Vorkommen zu zählen, können Sie diese boolesche Reihe zusammenfassen:
%Vor% Um die Gesamtzahl der Übereinstimmungen zu zählen, verwenden Sie s.str.match(...).str.get(0).count()
.
Wenn Ihre Regex mehreren eindeutigen Wörtern entspricht, die einzeln gezählt werden sollen, verwenden Sie
s.str.match(...).str.get(0).groupby(lambda x: x).count()
Es funktioniert so:
%Vor% Die match
string-Methode behandelt reguläre Ausdrücke ...
... aber die Ergebnisse sind, wie angegeben, nicht sehr praktisch. Die String-Methode get
verwendet die Übereinstimmungen als Zeichenfolgen und konvertiert leere Ergebnisse in NaNs ...
... die nicht gezählt werden.
%Vor%