Spark: "Die Zeichenfolgendarstellung eines Plans wurde abgeschnitten, da sie zu groß war." Warnung bei Verwendung eines manuell erstellten Aggregationsausdrucks

Question

Spark: "Die Zeichenfolgendarstellung eines Plans wurde abgeschnitten, da sie zu groß war." Warnung bei Verwendung eines manuell erstellten Aggregationsausdrucks

8

Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben.

Mein ursprünglicher Datenrahmen hat userID und hour Spalten, und ich beginne mit groupBy und zähle die Anzahl der Datensätze pro Benutzer und Stunde wie folgt:

%Vor%

Um nun einen Vektor pro Benutzer zu erzeugen, mache ich den folgenden, basierend auf dem ersten Vorschlag in dies antworte.

%Vor%

Wenn ich dieses Beispiel starte, erhalte ich die folgende Warnung:

%Vor%

Ich nehme an, das liegt daran, dass der Ausdruck zu lang ist?

Meine Frage ist: Kann ich diese Warnung ignorieren?

apache-spark spark-dataframe

Rami 03.05.2017, 12:21

quelle

1 Antwort

Tags und Links apache-spark spark-dataframe

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Liste der endgültigen Liste der Eigenschaften - Spring Cloud Config Server

score 13 · Accepted Answer

___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstnhdr ___ Spark: "Die Zeichenfolgendarstellung eines Plans wurde abgeschnitten, da sie zu groß war." Warnung bei Verwendung eines manuell erstellten Aggregationsausdrucks ___ tag123sparkdataframe ___ Structured columnar Daten, analog zu Pandas oder R-Datenrahmen, aber mit einer RDD-Basis, die eine massive, verteilte SQL-ähnliche Operation ermöglicht. ___ qstntxt ___

Ich versuche, für jeden meiner Benutzer einen Vektor zu erstellen, der die durchschnittliche Anzahl der Datensätze pro Stunde des Tages enthält. Daher muss der Vektor 24 Dimensionen haben.

Mein ursprünglicher Datenrahmen hat DEFAULT_MAX_TO_STRING_FIELDS = 25 und %code% Spalten, und ich beginne mit %code% und zähle die Anzahl der Datensätze pro Benutzer und Stunde wie folgt:

%Vor%

Um nun einen Vektor pro Benutzer zu erzeugen, mache ich den folgenden, basierend auf dem ersten Vorschlag in dies antworte.

%Vor%

Wenn ich dieses Beispiel starte, erhalte ich die folgende Warnung:

%Vor%

Ich nehme an, das liegt daran, dass der Ausdruck zu lang ist?

Meine Frage ist: Kann ich diese Warnung ignorieren?

___