sklearn: TFIDF Transformer: Wie tf-IDF-Werte bestimmter Wörter im Dokument abgerufen werden

7

Ich habe sclean verwendet, um TFIDF-Werte für Begriffe in Dokumenten mit dem Befehl

zu berechnen %Vor%

X_train_tf ist eine spärliche Matrix aus Formen

%Vor%

hat ausgegeben als (2257, 35788). Wie kann ich TF-IDF für Wörter in einem ausführlichen Dokument erhalten? Genauer gesagt, wie erhalten Sie Wörter mit maximalen TF-IDF-Werten in einem bestimmten Dokument?

    
maximus 24.12.2015, 07:43
quelle

1 Antwort

19

Sie können TfidfVectorizer von sklean

verwenden %Vor%

Der obige tfidf_matix hat die TF-IDF-Werte aller Dokumente im Korpus. Dies ist eine große dünne Matrix. Jetzt,

%Vor%

Dies gibt Ihnen die Liste aller Token oder N-Gramme oder Wörter. Für das erste Dokument in Ihrem Korpus,

%Vor%

Lässt sie drucken,

%Vor%     
sud_ 04.08.2016, 14:34
quelle

Tags und Links