Topic modeling - Ordnen Sie ein Dokument mit den Top 2 Themen als Kategoriebezeichnung zu - sklearn Latent Dirichlet Allocation

8

Ich gehe jetzt durch LDA (Latent Dirichlet Allocation) Topic Modeling-Methode, um bei der Extraktion von Themen aus einer Reihe von Dokumenten zu helfen. Wie ich anhand des unten stehenden Links verstanden habe, handelt es sich hierbei um einen unüberwachten Lernansatz zur Kategorisierung / Kennzeichnung jedes der Dokumente mit den extrahierten Themen.

Themenextraktion mit nicht-negativer Matrixfaktorisierung und Latentdirichlet-Zuordnung

In dem Beispielcode, der in diesem Link angegeben ist, ist eine Funktion definiert, um die obersten Wörter zu jedem Thema zu identifizieren.

%Vor%
  

Aus [41]: '0.17'

%Vor%

Meine Frage ist das. Gibt es eine Komponente oder eine Matrix des erstellten Modell-LDA, von der wir die Dokument-Themen-Zuordnung erhalten können?

Zum Beispiel muss ich die zwei wichtigsten Themen finden, die jedem Dokument zugeordnet sind, als Dokumentbezeichnung / Kategorie für dieses Dokument . Gibt es eine Komponente, um die Verteilung von Themen in einem Dokument zu finden, ähnlich der model.components_ für das Auffinden von Wörtern innerhalb eines Themas.

    
Bala 23.12.2015, 06:09
quelle

1 Antwort

9

Sie können die Dokument-Themen-Zuordnung mithilfe der Funktion transform (X) der LDA-Klasse berechnen.

Im Beispielcode wäre dies:

%Vor%

mit lda die angepasste lda und tf die Eingabedaten, die Sie transformieren möchten

    
clemgaut 29.02.2016, 10:15
quelle