Zähle Vorkommen bestimmter Wörter im Pandas-Dataframe

8

Ich möchte die Anzahl der Vorkommen bestimmter Wörter in einem Datenrahmen zählen. Ich kenne "str.contains"

%Vor%

Momentan verwende ich den obigen Code. Gibt es eine Methode, um den regulären Ausdruck abzugleichen und die Anzahl der Vorkommen zu ermitteln? In meinem Fall habe ich einen großen Datenrahmen und ich möchte ungefähr 100 Zeichenketten zusammenbringen.

    
Nilani Algiriyage 10.07.2013, 14:48
quelle

2 Antworten

9

Die Methode str.contains akzeptiert einen regulären Ausdruck:

%Vor%

Zum Beispiel:

%Vor%

Um die Vorkommen zu zählen, können Sie diese boolesche Reihe zusammenfassen:

%Vor%     
Andy Hayden 10.07.2013, 15:08
quelle
3

Um die Gesamtzahl der Übereinstimmungen zu zählen, verwenden Sie s.str.match(...).str.get(0).count() .

Wenn Ihre Regex mehreren eindeutigen Wörtern entspricht, die einzeln gezählt werden sollen, verwenden Sie s.str.match(...).str.get(0).groupby(lambda x: x).count()

Es funktioniert so:

%Vor%

Die match string-Methode behandelt reguläre Ausdrücke ...

%Vor%

... aber die Ergebnisse sind, wie angegeben, nicht sehr praktisch. Die String-Methode get verwendet die Übereinstimmungen als Zeichenfolgen und konvertiert leere Ergebnisse in NaNs ...

%Vor%

... die nicht gezählt werden.

%Vor%     
Dan Allan 10.07.2013 15:08
quelle

Tags und Links