Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und vorbearbeite. Ich möchte es nicht sammeln und auf der Festplatte oder dem Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, die Daten nacheinander in Form von iterierbaren Daten konsumiert.
Wie ist das möglich?
%Vor%Tags und Links python apache-spark pyspark rdd