Ich möchte die Beziehung zwischen latenter Dirichlet-Zuweisung (LDA) und der generischen Aufgabe des Dokumentenclusterns verdeutlichen.
Die LDA-Analyse tendiert dazu, die Themenanteile für jedes Dokument auszugeben. Wenn mein Verständnis stimmt, ist dies nicht das direkte Ergebnis von Dokumentenclustern. Wir können diese Wahrscheinlichkeitsanteile jedoch als Merkmaldarstellung für jedes Dokument behandeln. Anschließend können wir eine andere etablierte Clustermethode basierend auf den durch die LDA-Analyse erzeugten Feature-Konfigurationen aufrufen.
Stimmt mein Verständnis? Danke.
Ja, Sie können die Ausgabe von LDA als Funktionen für Ihre Dokumente behandeln. Genau dies taten Blei, Ng und Jordan in dem Papier, in dem LDA vorgestellt wurde . Sie haben es für die Klassifizierung getan, aber für das Clustering ist das Verfahren dasselbe.
(In der Maschinenterminologie wird diese Verwendung von LDA Dimensionalitätsreduktion genannt, weil sie die Anzahl der Dimensionen des Feature-Space von | V |, der Größe des Vokabulars, auf einige k Themen, die vom Benutzer ausgewählt wurden.)
Tags und Links machine-learning nlp text-mining data-mining lda