Wie werden Vorkommen jedes einzelnen Werts in einer Spalte gezählt?

8

edf.select("x").distinct.show() zeigt die verschiedenen Werte, die in der x -Spalte von edf DataFrame vorhanden sind.

Gibt es eine effiziente Methode, um auch zu zeigen, wie oft diese unterschiedlichen Werte im Datenrahmen auftreten? (Zähle für jeden einzelnen Wert)

    
Adurthi Ashwin Swarup 21.06.2016, 16:10
quelle

2 Antworten

18

countDistinct ist wahrscheinlich die erste Wahl:

%Vor%

Wenn Geschwindigkeit wichtiger ist als die Genauigkeit, können Sie approxCountDistinct berücksichtigen:

%Vor%

Um Werte und Zählungen zu erhalten:

%Vor%

In SQL ( spark-sql ):

%Vor%

und

%Vor%     
zero323 21.06.2016, 16:14
quelle
5
%Vor%     
shengshan zhang 13.12.2016 06:03
quelle

Tags und Links