Wie werden Vorkommen jedes einzelnen Werts in einer Spalte gezählt?

Question

8

edf.select("x").distinct.show() zeigt die verschiedenen Werte, die in der x -Spalte von edf DataFrame vorhanden sind.

Gibt es eine effiziente Methode, um auch zu zeigen, wie oft diese unterschiedlichen Werte im Datenrahmen auftreten? (Zähle für jeden einzelnen Wert)

scala apache-spark

Adurthi Ashwin Swarup 21.06.2016, 16:10

quelle

2 Antworten

5

%Vor%

shengshan zhang 13.12.2016 06:03

quelle

score 18 · Accepted Answer

countDistinct ist wahrscheinlich die erste Wahl:

%Vor%

Wenn Geschwindigkeit wichtiger ist als die Genauigkeit, können Sie approxCountDistinct berücksichtigen:

%Vor%

Um Werte und Zählungen zu erhalten:

%Vor%

In SQL ( spark-sql ):

%Vor%

und

%Vor%