RDD in iterable konvertieren: PySpark?

8

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und vorbearbeite. Ich möchte es nicht sammeln und auf der Festplatte oder dem Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, die Daten nacheinander in Form von iterierbaren Daten konsumiert.

Wie ist das möglich?

%Vor%     
mousecoder 24.09.2015, 22:07
quelle

1 Antwort

12

Ich glaube, was Sie wollen, ist toLocalIterator() :

    
danf1024 24.09.2015, 22:18
quelle

Tags und Links