Clustering mit Latent Dirichlet Allokation algo in gensim

8

Ist es möglich, Clustering in Gensim für eine gegebene Menge von Eingaben unter Verwendung von LDA durchzuführen? Wie kann ich darüber gehen?

    
Sharmila 26.06.2011, 21:03
quelle

4 Antworten

8

LDA erzeugt eine niederdimensionale Darstellung der Dokumente in einem Korpus. Zu dieser Low-d-Repräsentation könnten Sie einen Clustering-Algorithmus anwenden, z.B. k-bedeutet. Da jede Achse einem Thema entspricht, wäre es einfacher, jedes Dokument dem Thema zuzuweisen, auf das seine Projektion am größten ist.

    
cdf 29.06.2011, 18:10
quelle
8

Ja, du kannst. Hier ist ein Tutorial: Ссылка

Laden Sie zuerst Ihr Korpus und rufen Sie dann:

%Vor%     
rafalotufo 27.06.2011 01:11
quelle
6

Dies ist ein Beispiel. Sie müssen zuerst matutils.py und utils.py von gensim und das Verzeichnis kopieren sollte das Bild blasen mögen.

  

utils.py

     

matutils.py

     

doc_similar.py

     

Modell (dir)

     

Daten (dir)

Der Code-Schlag sollte in doc_similar.py sein. Dann verschiebe einfach deine data_file in die Verzeichnisdaten und ändere fname in der Funktion main.

%Vor%     
linhao.Q 10.04.2015 04:19
quelle
0

Die grundlegende Sache, die Sie hier verstehen sollten, ist, dass Clustering erfordert, dass Ihre Daten in einem Format vorliegen und sich nicht darum kümmern, wie Sie zu Ihren Daten gekommen sind. Also, ob Sie Clustering auf die Term-Dokument-Matrix oder auf die reduzierte Dimension (LDA-Ausgangsmatrix) anwenden, Clustering funktioniert unabhängig davon.

Aber machen Sie einfach die anderen Dinge richtig, kleine Fehler in Datenformaten können Sie viel Zeit der Forschung kosten.

    
Nitin Agarwal 03.06.2016 07:12
quelle