Jedes Mal, wenn ich einen neuen Datensatz erhalte, schaue ich mir zuerst die Zusammenfassung an. Die Funktion summary
macht einen ziemlich guten Job, aber ich interessiere mich häufig für Standardabweichungen, Quantile mit unterschiedlichen Haltepunkten, Anzahl der Beobachtungen usw. Auch die Darstellung von summary
ist nicht wirklich die einfachste Art zu verdauen oder was Sie in Journalen sehen (dh summary
ist horizontal statt vertikal).
Hier ist zum Beispiel, was ich aus der Zusammenfassung mit einigen erfundenen Daten bekomme.
%Vor%Aber sagen wir, ich möchte wirklich etwas mehr so.
%Vor%Für diesen kleinen Datensatz (d. h. nur wenige feste Eigenschaften) ist dies einfach. Aber ich habe mehr oder was zu tun mehr Statistiken oder mehr Slicing-Dicing, kann es langweilig werden.
Ich habe dies mit reshape2
und plyr
versucht, bekomme aber einen Fehler.
Dies hinterlässt zwei Fragen:
ddply
? Danke!
Probieren Sie die stat.desc
im Paket pastecs
. Sie können es in Ihrem Datensatz verwenden, indem Sie stat.desc(my.data)
aufrufen. Um die Ausgabe in dem von Ihnen gewünschten Format zu erhalten, müssen Sie (a) den Datenrahmen transponieren, (b) nicht-numerische Variablen entfernen und (c) nur die benötigten Spalten für die Zusammenfassungsstatistik beibehalten
Ich habe den konzeptionellen Fehler in meinem obigen Code gefunden. Da mean
, median
und sd
auf einem Vektor arbeiten, muss ich ihnen einen bestimmten Vektor im Datenrahmen geben, den ddply
basierend auf .variables
erstellt. (Ich habe ein Beispiel aus dem Handbuch falsch angewendet, das die Datenrahmenoperatoren nrow
und ncol
verwendet.) Hier ist der korrekte Code:
Ramnaths Lösung ist einfacher, aber dies ist erweiterbar für alle Arten von Statistikzusammenfassungen, die Sie vielleicht möchten.