Resilient Distributed Datasets (RDDs) sind eine verteilte Speicherabstraktion, die es Programmierern ermöglicht, In-Memory-Berechnungen in großen Clustern durchzuführen, während die Fehlertoleranz von Datenflussmodellen wie MapReduce beibehalten wird.
Ich würde gerne durch eine RDD von Strings iterieren und "tue etwas" für jeden String. Die Ausgabe sollte double[][] sein. Hier ist ein Beispiel mit einer for-Schleife. Ich verstehe, dass ich (denke ich) die Funktion foreach für Java RDDs...
05.08.2015, 14:04
Lassen Sie mich klären, wie shuffle depth funktioniert und wie Spark shuffle manager verwendet. Ich melde einige sehr hilfreiche Ressourcen:
Ссылка
Ссылка
Ссылка
Wenn ich sie lese, habe ich verstanden, dass es verschiedene...
11.01.2017, 08:09