sklearn: TFIDF Transformer: Wie tf-IDF-Werte bestimmter Wörter im Dokument abgerufen werden

Question

sklearn: TFIDF Transformer: Wie tf-IDF-Werte bestimmter Wörter im Dokument abgerufen werden

7

Ich habe sclean verwendet, um TFIDF-Werte für Begriffe in Dokumenten mit dem Befehl

zu berechnen %Vor%

X_train_tf ist eine spärliche Matrix aus Formen

%Vor%

hat ausgegeben als (2257, 35788). Wie kann ich TF-IDF für Wörter in einem ausführlichen Dokument erhalten? Genauer gesagt, wie erhalten Sie Wörter mit maximalen TF-IDF-Werten in einem bestimmten Dokument?

python scikit-learn

maximus 24.12.2015, 07:43

quelle

1 Antwort

Tags und Links python scikit-learn

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Gibt es eine sinnvolle Verwendung einer Funktion, die eine anonyme Struktur zurückgibt?

score 19 · Accepted Answer

Sie können TfidfVectorizer von sklean

verwenden %Vor%

Der obige tfidf_matix hat die TF-IDF-Werte aller Dokumente im Korpus. Dies ist eine große dünne Matrix. Jetzt,

%Vor%

Dies gibt Ihnen die Liste aller Token oder N-Gramme oder Wörter. Für das erste Dokument in Ihrem Korpus,

%Vor%

Lässt sie drucken,

%Vor%