Die Beziehung zwischen latenter Dirichlet-Zuordnung und Dokumentenclustern

Question

Die Beziehung zwischen latenter Dirichlet-Zuordnung und Dokumentenclustern

8

Ich möchte die Beziehung zwischen latenter Dirichlet-Zuweisung (LDA) und der generischen Aufgabe des Dokumentenclusterns verdeutlichen.

Die LDA-Analyse tendiert dazu, die Themenanteile für jedes Dokument auszugeben. Wenn mein Verständnis stimmt, ist dies nicht das direkte Ergebnis von Dokumentenclustern. Wir können diese Wahrscheinlichkeitsanteile jedoch als Merkmaldarstellung für jedes Dokument behandeln. Anschließend können wir eine andere etablierte Clustermethode basierend auf den durch die LDA-Analyse erzeugten Feature-Konfigurationen aufrufen.

Stimmt mein Verständnis? Danke.

machine-learning nlp text-mining data-mining lda

user785099 07.07.2011, 14:17

quelle

1 Antwort

Tags und Links machine-learning nlp text-mining data-mining lda

Django: Verwenden von Annotate, Count und Distinct in einem Queryset mischender Compiler

score 9 · Accepted Answer

Ja, Sie können die Ausgabe von LDA als Funktionen für Ihre Dokumente behandeln. Genau dies taten Blei, Ng und Jordan in dem Papier, in dem LDA vorgestellt wurde . Sie haben es für die Klassifizierung getan, aber für das Clustering ist das Verfahren dasselbe.

(In der Maschinenterminologie wird diese Verwendung von LDA Dimensionalitätsreduktion genannt, weil sie die Anzahl der Dimensionen des Feature-Space von | V |, der Größe des Vokabulars, auf einige k Themen, die vom Benutzer ausgewählt wurden.)