Die Beziehung zwischen latenter Dirichlet-Zuordnung und Dokumentenclustern

8

Ich möchte die Beziehung zwischen latenter Dirichlet-Zuweisung (LDA) und der generischen Aufgabe des Dokumentenclusterns verdeutlichen.

Die LDA-Analyse tendiert dazu, die Themenanteile für jedes Dokument auszugeben. Wenn mein Verständnis stimmt, ist dies nicht das direkte Ergebnis von Dokumentenclustern. Wir können diese Wahrscheinlichkeitsanteile jedoch als Merkmaldarstellung für jedes Dokument behandeln. Anschließend können wir eine andere etablierte Clustermethode basierend auf den durch die LDA-Analyse erzeugten Feature-Konfigurationen aufrufen.

Stimmt mein Verständnis? Danke.

    
user785099 07.07.2011, 14:17
quelle

1 Antwort

9

Ja, Sie können die Ausgabe von LDA als Funktionen für Ihre Dokumente behandeln. Genau dies taten Blei, Ng und Jordan in dem Papier, in dem LDA vorgestellt wurde . Sie haben es für die Klassifizierung getan, aber für das Clustering ist das Verfahren dasselbe.

(In der Maschinenterminologie wird diese Verwendung von LDA Dimensionalitätsreduktion genannt, weil sie die Anzahl der Dimensionen des Feature-Space von | V |, der Größe des Vokabulars, auf einige k Themen, die vom Benutzer ausgewählt wurden.)

    
Fred Foo 07.07.2011, 14:21
quelle