Die einfachste Lösung ist reduce
mit union
( unionAll
in Spark & lt; 2.0):
Dies ist relativ prägnant und sollte keine Daten aus dem Off-Heap-Speicher verschieben, aber die Verlängerung der Herkunft mit jeder Vereinigung erfordert nichtlineare Zeit, um die Plananalyse durchzuführen. Was kann ein Problem sein, wenn Sie versuchen, eine große Anzahl von DataFrames
zu verschmelzen.
Sie können auch in RDDs
konvertieren und SparkContext.union
verwenden:
Es hält die DataFrames
direkt.
Tags und Links python scala apache-spark spark-dataframe apache-spark-sql