Wie sortiere ich eine RDD und limit in Spark?

8

Ich habe RDD der Foo-Klasse: class Foo( name : String, createDate : Date ) . Ich möchte eine andere RDD mit 10 Prozent älterem Foo . Meine erste Idee war, nach createDate zu sortieren und um 0,1 * zu zählen, aber es gibt keine Limit-Funktion.

Haben Sie eine Idee?

    
etig 05.10.2015, 11:52
quelle

1 Antwort

14

Angenommen, Foo ist eine Fallklasse wie diese:

%Vor%
  1. Verwenden von einfachen RDDs:

    %Vor%
    • Daten passen in den Treiberspeicher:

      • und der gewünschte Bruch ist relativ klein

        %Vor%
      • Fraktion, die Sie wollen, ist relativ groß:

        %Vor%
    • sonst

      %Vor%
  2. Verwenden von DataFrame (beachten Sie, dass dies aufgrund des Grenzverhaltens nicht optimal ist).

    %Vor%
zero323 05.10.2015, 12:19
quelle

Tags und Links