Wort-Wort-Kookkurrenz-Matrix

9

Ich suche nach einem Modul in sklearn, mit dem Sie die Wort-Wort-Co-Occurrence-Matrix ableiten können. Ich kann die Dokument-Term-Matrix bekommen, aber nicht sicher, wie man eine Wort-Wort-Matrix von Ko-Vorkommen erhält.

    
newdev14 22.02.2016, 20:05
quelle

2 Antworten

13

Hier ist meine Beispiellösung mit CountVectorizer in scikit-learn. Und unter Bezugnahme auf diesen Post können Sie einfach Matrixmultiplikation verwenden um eine Wort-Wort-Kookkurrenzmatrix zu erhalten.

%Vor%

Sie können auch auf Wörterbücher in count_model ,

verweisen %Vor%

Oder, wenn Sie mit der diagonalen Komponente normalisieren möchten (auf die Antwort im vorherigen Beitrag).

%Vor%     
titipata 14.06.2016 22:12
quelle
1

Sie können den Parameter ngram_range in CountVectorizer oder TfidfVectorizer

verwenden

Codebeispiel:

%Vor%

Wenn Sie explizit angeben möchten, welches Co-Vorkommen von Wörtern Sie zählen möchten, verwenden Sie vocabulary param, d. h .: vocabulary = {'awesome unicorns':0, 'batman forever':1}

Ссылка

Selbsterklärender und gebrauchsfertiger Code mit vordefinierten Wort-Wort-Co-Vorkommen. In diesem Fall verfolgen wir das Co-Vorkommen von awesome unicorns und batman forever :

%Vor%

Endgültige Ausgabe ist ('awesome unicorns', 1), ('batman forever', 2) , was genau unseren samples bereitgestellten Daten entspricht.

    
Guiem Bosch 22.02.2016 22:20
quelle

Tags und Links