Plotten der Ausgabe von kmeans (PyCluster impl)

8
___ tag123clusteranalyse ___ Clusteranalyse ist der Prozess der Gruppierung "ähnlicher" Objekte in Gruppen, die als "Cluster" bekannt sind, zusammen mit der Analyse dieser Ergebnisse. ___ tag123python ___ Python ist eine dynamische und stark typisierte Programmiersprache, die die Usability betont. Zwei ähnliche, aber größtenteils inkompatible Versionen von Python sind weit verbreitet (2 und 3). Wenn Sie eine versionsspezifische Python-Frage haben, sollten Sie die Tags [python-2.7] oder [python-3.x] zusätzlich zum Tag [python] verwenden. Wenn Sie eine Python-Variante wie jython, pypy, iron-python usw. verwenden, kennzeichnen Sie diese bitte entsprechend. ___ tag123kmeans ___ In der Statistik und im Data Mining ist k-means clustering eine Methode der Clusteranalyse, die darauf abzielt, n Beobachtungen in k-Cluster zu zerlegen, in denen jede Beobachtung zum Cluster mit dem nächsten Mittelwert (kleinste Quadrate) gehört. ___ qstnhdr ___ Plotten der Ausgabe von kmeans (PyCluster impl) ___ answer9849186 ___

Es ist schwierig, %code% -dimensionale Daten darzustellen. Eine Möglichkeit, dies zu tun, besteht darin, über Hauptkomponentenanalyse (PCA) in einen 2D-Raum zu mappen. Sobald wir das getan haben, können wir sie mit matplotlib auf eine Handlung werfen (basierend auf dieser Antwort ).

> %Vor%

Wenn Sie etwas anderes als Zahlen darstellen möchten, ändern Sie einfach das erste Argument in %code% . Sie können zum Beispiel Benutzernamen oder so etwas tun.

Beachten Sie, dass die Cluster in diesem Bereich möglicherweise leicht "falsch" aussehen (z. B. 15 scheint näher an Rot als unten), da es sich nicht um den tatsächlichen Speicherplatz handelt. In diesem Fall behalten die ersten beiden Komponenten 61 % der Varianz:

%Vor%     
___
Maxwell 23.03.2012, 22:01
quelle

1 Antwort

15

Es ist schwierig, m -dimensionale Daten darzustellen. Eine Möglichkeit, dies zu tun, besteht darin, über Hauptkomponentenanalyse (PCA) in einen 2D-Raum zu mappen. Sobald wir das getan haben, können wir sie mit matplotlib auf eine Handlung werfen (basierend auf dieser Antwort ).

> %Vor%

Wenn Sie etwas anderes als Zahlen darstellen möchten, ändern Sie einfach das erste Argument in annotate . Sie können zum Beispiel Benutzernamen oder so etwas tun.

Beachten Sie, dass die Cluster in diesem Bereich möglicherweise leicht "falsch" aussehen (z. B. 15 scheint näher an Rot als unten), da es sich nicht um den tatsächlichen Speicherplatz handelt. In diesem Fall behalten die ersten beiden Komponenten 61 % der Varianz:

%Vor%     
Dougal 24.03.2012 04:39
quelle