Ermittelt die einzelnen Elemente jeder Gruppe nach einem anderen Feld in einem Spark 1.6 Dataframe

8

Ich versuche in einem Spark-Datenrahmen nach Datum zu gruppieren und zähle für jede Gruppe die eindeutigen Werte einer Spalte:

%Vor%

Und der Code:

%Vor%

Die Ergebnisse mit pyspark sind

%Vor%

Und was ich erwarte, ist so etwas mit Pandas:

%Vor%

Wie kann ich die einzigartigen Elemente jeder Gruppe durch ein anderes Feld, wie Adresse, erhalten?

    
Ivan 17.03.2016, 15:19
quelle

1 Antwort

14

Es gibt eine Möglichkeit, die Anzahl der einzelnen Elemente jeder Gruppe mithilfe der Funktion countDistinct :

zu berechnen %Vor%

Die Dokumente sind verfügbar [hier] ( Ссылка , org.apache.spark.sql.Column ...)).

    
Ivan 21.03.2016, 17:31
quelle

Tags und Links