Ich gehe jetzt durch LDA (Latent Dirichlet Allocation) Topic Modeling-Methode, um bei der Extraktion von Themen aus einer Reihe von Dokumenten zu helfen. Wie ich anhand des unten stehenden Links verstanden habe, handelt es sich hierbei um einen unüberwachten Lernansatz zur Kategorisierung / Kennzeichnung jedes der Dokumente mit den extrahierten Themen.
Themenextraktion mit nicht-negativer Matrixfaktorisierung und Latentdirichlet-Zuordnung
In dem Beispielcode, der in diesem Link angegeben ist, ist eine Funktion definiert, um die obersten Wörter zu jedem Thema zu identifizieren.
%Vor%%Vor%Aus [41]: '0.17'
Meine Frage ist das. Gibt es eine Komponente oder eine Matrix des erstellten Modell-LDA, von der wir die Dokument-Themen-Zuordnung erhalten können?
Zum Beispiel muss ich die zwei wichtigsten Themen finden, die jedem Dokument zugeordnet sind, als Dokumentbezeichnung / Kategorie für dieses Dokument . Gibt es eine Komponente, um die Verteilung von Themen in einem Dokument zu finden, ähnlich der model.components_
für das Auffinden von Wörtern innerhalb eines Themas.
Tags und Links python python-2.7 scikit-learn lda topic-modeling