Wie kann ich ein rdd Array von spark nehmen und es in zwei rdds aufteilen, so dass jede rdd einen Teil der Daten enthält (sagen wir 97% und 3%).
Ich dachte, die Liste und dann shuffledList.take((0.97*rddList.count).toInt)
Aber wie kann ich die rdd mischen?
Oder gibt es eine bessere Möglichkeit, die Liste zu teilen?
Ich habe eine einfache und schnelle Möglichkeit gefunden, das Array zu teilen:
%Vor%Es wird die Daten unter Verwendung der bereitgestellten Gewichte teilen.
Sie sollten randomSplit
method verwenden:
Hier ist sein Implementierung in Spark 1.0:
%Vor%Tags und Links scala apache-spark rdd