Bearbeiten : Die Antwort hilft, aber ich habe meine Lösung beschrieben in: MemoryOverhead-Problem in Spark .
Ich habe eine RDD mit 202092 Partitionen, die einen Datensatz liest, der von anderen erstellt wurde. Ich kann manuell sehen, dass...
06.08.2016, 01:31