Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben.
Mein ursprünglicher Datenrahmen hat userID
und hour
Spalten, und ich beginne mit groupBy
und zähle die Anzahl der Datensätze pro Benutzer und Stunde wie folgt:
Um nun einen Vektor pro Benutzer zu erzeugen, mache ich den folgenden, basierend auf dem ersten Vorschlag in dies antworte.
%Vor%Wenn ich dieses Beispiel starte, erhalte ich die folgende Warnung:
%Vor%Ich nehme an, das liegt daran, dass der Ausdruck zu lang ist?
Meine Frage ist: Kann ich diese Warnung ignorieren?
Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben.
Mein ursprünglicher Datenrahmen hat DEFAULT_MAX_TO_STRING_FIELDS = 25
und %code% Spalten, und ich beginne mit %code% und zähle die Anzahl der Datensätze pro Benutzer und Stunde wie folgt:
Um nun einen Vektor pro Benutzer zu erzeugen, mache ich den folgenden, basierend auf dem ersten Vorschlag in dies antworte.
%Vor%Wenn ich dieses Beispiel starte, erhalte ich die folgende Warnung:
%Vor%Ich nehme an, das liegt daran, dass der Ausdruck zu lang ist?
Meine Frage ist: Kann ich diese Warnung ignorieren?
Tags und Links apache-spark spark-dataframe