LDA erzeugt eine niederdimensionale Darstellung der Dokumente in einem Korpus. Zu dieser Low-d-Repräsentation könnten Sie einen Clustering-Algorithmus anwenden, z.B. k-bedeutet. Da jede Achse einem Thema entspricht, wäre es einfacher, jedes Dokument dem Thema zuzuweisen, auf das seine Projektion am größten ist.
Ja, du kannst. Hier ist ein Tutorial: Ссылка
Laden Sie zuerst Ihr Korpus und rufen Sie dann:
%Vor%Dies ist ein Beispiel. Sie müssen zuerst matutils.py und utils.py von gensim und das Verzeichnis kopieren sollte das Bild blasen mögen.
utils.py
matutils.py
doc_similar.py
Modell (dir)
Daten (dir)
Der Code-Schlag sollte in doc_similar.py sein. Dann verschiebe einfach deine data_file in die Verzeichnisdaten und ändere fname in der Funktion main.
%Vor%Die grundlegende Sache, die Sie hier verstehen sollten, ist, dass Clustering erfordert, dass Ihre Daten in einem Format vorliegen und sich nicht darum kümmern, wie Sie zu Ihren Daten gekommen sind. Also, ob Sie Clustering auf die Term-Dokument-Matrix oder auf die reduzierte Dimension (LDA-Ausgangsmatrix) anwenden, Clustering funktioniert unabhängig davon.
Aber machen Sie einfach die anderen Dinge richtig, kleine Fehler in Datenformaten können Sie viel Zeit der Forschung kosten.
Tags und Links python algorithm cluster-analysis latent-semantic-indexing