Ich verwende R-Software (R-Commander), um meine Daten zu gruppieren. Ich habe eine kleinere Teilmenge meiner Daten mit 200 Zeilen und etwa 800 Spalten. Ich bekomme den folgenden Fehler, wenn ich Kmeans Cluster und Plot auf einem Graphen versuche. "'princomp' kann nur mit mehr Einheiten als Variablen verwendet werden"
Ich habe dann ein Testdoc von 10 Zeilen und 10 Spalten erstellt, die gut plotten, aber wenn ich eine zusätzliche Spalte hinzufüge, bekomme ich wieder einen Fehler. Warum ist das? Ich muss in der Lage sein, meinen Cluster zu plotten. Wenn ich meinen Datensatz nach dem Ausführen von kmeans darauf anschaue, kann ich die Spalte mit den zusätzlichen Ergebnissen sehen, die anzeigt, zu welchen Clustern sie gehören.
Gibt es irgendwas was ich falsch mache, kann ich diesen Fehler loswerden und meine größere Probe plotten ??? Bitte helft mir, seit einer Woche den Kopf zu ruinieren. Danke Jungs.
Die Hauptkomponentenanalyse ist unterspezifiziert , wenn Sie weniger Beispiele als Datenpunkte haben. Jeder Datenpunkt ist seine eigene Hauptkomponente. Damit PCA funktioniert, sollte die Anzahl der Instanzen deutlich größer als die Anzahl der Dimensionen sein.
Einfach gesagt können Sie die Probleme so betrachten:
Wenn Sie n
Dimensionen haben, können Sie bis zu n+1
Instanzen mit Vektoren kodieren, die alle 0
sind oder die höchstens 1 1
haben. Und das ist optimal, also wird PCA das machen! Aber es ist nicht sehr hilfreich.
Tags und Links r cluster-analysis k-means pca r-commander