Ich bin daran interessiert, kmeans Clustering auf einer Liste von Wörtern durchzuführen, wobei das Entfernungsmaß Leveshtein ist.
1) Ich weiß, dass es viele Frameworks gibt, einschließlich scipy und orange, die eine kmeans-Implementierung haben. Allerdings benötigen sie alle eine Art Vektor als die Daten, die mir nicht wirklich passen.
2) Ich brauche eine gute Clusterimplementierung. Ich schaute auf Python-Clustering und erkannte, dass es nicht a) die Summe der gesamten Entfernung zu jedem Schwerpunkt zurückgibt, und b) es keine Art von Iterationslimit oder Cut-Off hat, was die Qualität des Clusterings sicherstellt. python-clustering und der Clustering-Algorithmus auf daniweb funktioniert nicht wirklich für mich.
Kann mir jemand eine gute Bibliothek finden? Google war nicht mein Freund
Nicht wirklich eine Antwort auf Ihre spezielle Frage, aber ich empfehle einen Blick auf "Programming Collective Intelligence" . Am Ende jedes Kapitels, z. B. Clustering, wandert es davon ab, die besten Lektüre zu diesem Thema zu beschreiben.
Vielleicht werfen Sie einen Blick auf Weka . Es ist eine Java-Bibliothek mit einigen unüberwachten Lernimplementierungen und netten Visualisierungstools. Es ist eine Weile her, seit ich es benutzt habe, nicht sicher, ob es für eine reale Produktionsumgebung großartig ist, aber definitiv ein guter Ausgangspunkt.
Tags und Links python cluster-analysis