Wie visualisierst du einen Gemeindebaum von sklearn.cluster.ward_tree?

8

In sklearn gibt es einen agglomerativen Clustering-Algorithmus, der die Varianz minimiert. Gewöhnlich ist sklearn mit vielen netten Anwendungsbeispielen dokumentiert, aber ich konnte keine Beispiele finden, wie man diese Funktion benutzt.

Grundsätzlich ist mein Problem, ein Dendrogramm nach dem Clustering meiner Daten zu zeichnen, aber ich verstehe die Ausgabe von der Funktion nicht. Die Dokumentation gibt an, dass sie die untergeordneten Elemente, die Anzahl der Komponenten und die Anzahl zurückgibt der Blätter und die Eltern jedes Knotens.

Aber für meine Datenproben geben die Ergebnisse keine Bedeutung. Für eine (32,542) Matrix, die mit einer Konnektivitätsmatrix geclustert wurde, ist dies die Ausgabe:

%Vor%

In diesem Fall habe ich nach zwei Clustern mit 32 Vektoren mit Merkmalen gefragt. Aber wie sind die zwei Cluster in den Daten sichtbar? Wo sind sie? Und was meinen die Kinder hier wirklich, wie können die Kinder höhere Zahlen haben als die Gesamtzahl der Proben?

    
user1603472 28.02.2014, 21:45
quelle

1 Antwort

5

Über das erste Argument der Ausgabe sagt die Dokumentation

  

Die Kinder jedes Nicht-Blatt-Knotens. Werte, die kleiner als n_samples sind, beziehen sich auf   zu den Blättern des Baumes. Ein größerer Wert i zeigt einen Knoten mit an   Kinder Kinder [i - n_samples].

Ich hatte einige Schwierigkeiten herauszufinden, was das bedeutet, aber dann half dieser Code. Wir erzeugen normalverteilte Daten mit zwei "Clustern", einen mit 3 Datenpunkten mit Mittelwert 0 und einen mit 2 Datenpunkten mit Mittelwert 100. Wir erwarten also, dass der 3 erste Datenpunkt in einem Zweig des Ausgabebaums endet und die anderen 2 in einem anderen.

%Vor%

Was den Baum erzeugt:

%Vor%

wobei die Nummern Knoten-IDs sind. Wenn knoten_id & lt; 5 (die Anzahl der Samples), dann ist es ein Index für einen Datenpunkt (oder Blattknoten). Wenn node_id & gt; = 5, dann ist es ein interner Knoten. Wir sehen, dass die Daten wie erwartet gruppiert sind:

%Vor%     
A.P. 01.10.2014 23:09
quelle