Spark - scala: shuffle RDD / split RDD in zwei zufällige Teile nach dem Zufallsprinzip

8

Wie kann ich ein rdd Array von spark nehmen und es in zwei rdds aufteilen, so dass jede rdd einen Teil der Daten enthält (sagen wir 97% und 3%).

Ich dachte, die Liste und dann shuffledList.take((0.97*rddList.count).toInt)

zu mischen

Aber wie kann ich die rdd mischen?

Oder gibt es eine bessere Möglichkeit, die Liste zu teilen?

    
griffon vulture 21.07.2014, 12:13
quelle

2 Antworten

19

Ich habe eine einfache und schnelle Möglichkeit gefunden, das Array zu teilen:

%Vor%

Es wird die Daten unter Verwendung der bereitgestellten Gewichte teilen.

    
griffon vulture 21.07.2014, 13:02
quelle
6

Sie sollten randomSplit method verwenden:

%Vor%

Hier ist sein Implementierung in Spark 1.0:

%Vor%     
Shyamendra Solanki 21.07.2014 13:06
quelle

Tags und Links