Hier ist meine Beispiellösung mit CountVectorizer
in scikit-learn. Und unter Bezugnahme auf diesen Post können Sie einfach Matrixmultiplikation verwenden um eine Wort-Wort-Kookkurrenzmatrix zu erhalten.
Sie können auch auf Wörterbücher in count_model
,
Oder, wenn Sie mit der diagonalen Komponente normalisieren möchten (auf die Antwort im vorherigen Beitrag).
%Vor% Sie können den Parameter ngram_range
in CountVectorizer
oder TfidfVectorizer
Codebeispiel:
%Vor% Wenn Sie explizit angeben möchten, welches Co-Vorkommen von Wörtern Sie zählen möchten, verwenden Sie vocabulary
param, d. h .: vocabulary = {'awesome unicorns':0, 'batman forever':1}
Selbsterklärender und gebrauchsfertiger Code mit vordefinierten Wort-Wort-Co-Vorkommen. In diesem Fall verfolgen wir das Co-Vorkommen von awesome unicorns
und batman forever
:
Endgültige Ausgabe ist ('awesome unicorns', 1), ('batman forever', 2)
, was genau unseren samples
bereitgestellten Daten entspricht.
Tags und Links python scikit-learn matrix