Ich habe sclean verwendet, um TFIDF-Werte für Begriffe in Dokumenten mit dem Befehl
zu berechnen %Vor%X_train_tf ist eine spärliche Matrix aus Formen
%Vor%hat ausgegeben als (2257, 35788). Wie kann ich TF-IDF für Wörter in einem ausführlichen Dokument erhalten? Genauer gesagt, wie erhalten Sie Wörter mit maximalen TF-IDF-Werten in einem bestimmten Dokument?
Sie können TfidfVectorizer von sklean
verwenden %Vor%Der obige tfidf_matix hat die TF-IDF-Werte aller Dokumente im Korpus. Dies ist eine große dünne Matrix. Jetzt,
%Vor%Dies gibt Ihnen die Liste aller Token oder N-Gramme oder Wörter. Für das erste Dokument in Ihrem Korpus,
%Vor%Lässt sie drucken,
%Vor%Tags und Links python scikit-learn