Python KMeans Clustering Wörter

8

Ich bin daran interessiert, kmeans Clustering auf einer Liste von Wörtern durchzuführen, wobei das Entfernungsmaß Leveshtein ist.

1) Ich weiß, dass es viele Frameworks gibt, einschließlich scipy und orange, die eine kmeans-Implementierung haben. Allerdings benötigen sie alle eine Art Vektor als die Daten, die mir nicht wirklich passen.

2) Ich brauche eine gute Clusterimplementierung. Ich schaute auf Python-Clustering und erkannte, dass es nicht a) die Summe der gesamten Entfernung zu jedem Schwerpunkt zurückgibt, und b) es keine Art von Iterationslimit oder Cut-Off hat, was die Qualität des Clusterings sicherstellt. python-clustering und der Clustering-Algorithmus auf daniweb funktioniert nicht wirklich für mich.

Kann mir jemand eine gute Bibliothek finden? Google war nicht mein Freund

    
sadawd 17.03.2010, 03:29
quelle

3 Antworten

1

Ja, ich denke, es gibt keine gute Implementierung für das, was ich brauche.

Ich habe einige verrückte Anforderungen, wie Distanzcaching usw.

Ich denke, ich werde einfach meine eigene Lib schreiben und sie bald als GPLv3 veröffentlichen.

    
sadawd 17.03.2010 06:35
quelle
0

Nicht wirklich eine Antwort auf Ihre spezielle Frage, aber ich empfehle einen Blick auf "Programming Collective Intelligence" . Am Ende jedes Kapitels, z. B. Clustering, wandert es davon ab, die besten Lektüre zu diesem Thema zu beschreiben.

    
Charles Merriam 17.03.2010 06:18
quelle
0

Vielleicht werfen Sie einen Blick auf Weka . Es ist eine Java-Bibliothek mit einigen unüberwachten Lernimplementierungen und netten Visualisierungstools. Es ist eine Weile her, seit ich es benutzt habe, nicht sicher, ob es für eine reale Produktionsumgebung großartig ist, aber definitiv ein guter Ausgangspunkt.

    
Aspasia 09.01.2012 11:11
quelle

Tags und Links