rdd

Resilient Distributed Datasets (RDDs) sind eine verteilte Speicherabstraktion, die es Programmierern ermöglicht, In-Memory-Berechnungen in großen Clustern durchzuführen, während die Fehlertoleranz von Datenflussmodellen wie MapReduce beibehalten wird.
2
Antworten

Iteriere durch einen Java RDD nach Zeile

Ich würde gerne durch eine RDD von Strings iterieren und "tue etwas" für jeden String. Die Ausgabe sollte double[][] sein. Hier ist ein Beispiel mit einer for-Schleife. Ich verstehe, dass ich (denke ich) die Funktion foreach für Java RDDs...
05.08.2015, 14:04
1
Antwort

Shuffle Manager in Spark verstehen

Lassen Sie mich klären, wie shuffle depth funktioniert und wie Spark shuffle manager verwendet. Ich melde einige sehr hilfreiche Ressourcen: Ссылка Ссылка Ссылка Wenn ich sie lese, habe ich verstanden, dass es verschiedene...
11.01.2017, 08:09