Wie interpretiere ich LDA-Komponenten (mit sklearn)?

9

Ich habe Latent Dirichlet Allocation ( sklearn Implementierung) verwendet, um etwa 500 wissenschaftliche Artikel-Abstracts zu analysieren und ich habe Themen mit den wichtigsten Wörtern (in deutscher Sprache). Mein Problem besteht darin, diese mit den wichtigsten Wörtern assoziierten Werte zu interpretieren. Ich nahm an, für alle Wörter pro Thema Wahrscheinlichkeiten zu bekommen, die sich zu 1 addieren, was nicht der Fall ist.

Wie kann ich diese Werte interpretieren? Zum Beispiel würde ich gerne erzählen können, warum Thema # 20 Wörter mit viel höheren Werten als andere Themen hat. Hat ihre absolute Höhe mit Bayes'scher Wahrscheinlichkeit zu tun? Ist das Thema häufiger im Korpus? Ich bin noch nicht in der Lage, diese Werte mit der Mathematik hinter der LDA zusammenzubringen.

%Vor%     
LSz 01.02.2016, 20:53
quelle

1 Antwort

1

Aus der Dokumentation

  

Komponenten_   Variationsparameter für die Themenwortverteilung. Seit dem Abschluss   Voraussetzung für die Wortverteilung ist ein Dirichlet, components_ [i,   j] kann als Pseudocount angesehen werden, der die Anzahl der Male darstellt   Wort j wurde dem Thema i zugewiesen. Es kann auch als Verteilung angesehen werden   über die Wörter für jedes Thema nach der Normalisierung: model.components_ / model.components_.sum(axis=1)[:, np.newaxis] .

Die Werte können also als eine Verteilung angesehen werden, wenn Sie über die Komponente normalisieren, um die Wichtigkeit jedes Begriffs im Thema zu bewerten. AFAIU Sie können die Pseudo-Anzahl nicht verwenden, um die Wichtigkeit von zwei Themen im Korpus zu vergleichen, da sie ein Glättungsfaktor sind, der auf die Term-Topic-Verteilung angewendet wird.

    
Simon Thordal 20.02.2018 17:22
quelle