Ich würde findInterval()
hier verwenden:
Zuerst einige Beispieldaten erstellen
%Vor% Verwenden Sie findInterval()
, um Ihren "Alters" -Vektor zu kategorisieren.
Alternativ, wie in den Kommentaren empfohlen, ist cut()
auch hier nützlich:
Diese Antwort bietet zwei Möglichkeiten, das Problem mit dem Paket data.table
zu lösen, wodurch die Geschwindigkeit des Prozesses erheblich verbessert wird. Dies ist entscheidend, wenn man mit großen Datensätzen arbeitet.
1s Approach : eine Anpassung der vorherigen Antwort, aber jetzt mit data.table
+ einschließlich labels
:
2. Ansatz : Dies ist eine eher wortreiche Methode, aber es macht auch deutlicher, was genau in jeder Altersgruppe liegt:
%Vor%Obwohl die beiden Ansätze dasselbe Ergebnis liefern sollten, bevorzuge ich das erste aus zwei Gründen. (a) Es ist kürzer zu schreiben und (2) die Altersgruppen sind in der richtigen Weise geordnet, was für die Visualisierung der Daten entscheidend ist.
Angenommen, Ihr Alter wurde in der Datenrahmenspalte age
gespeichert. Ihr Dataframe ist df
, und Sie möchten eine neue Spalte age_grouping
, die den "Bucket" enthält, in den Ihre Altersgruppen fallen.
Angenommen, Ihr Alter liegt zwischen 0 und & gt; 100, und Sie wollten sie alle 10 Jahre gruppieren. Der folgende Code würde dies erreichen, indem diese Intervalle in einer neuen age grouping
-Spalte gespeichert werden:
Tags und Links r histogram categorization bins