groupByKey ist teuer, hat zwei Implikationen:
Abhängig von Ihrem Anwendungsfall haben Sie verschiedene bessere Optionen:
Ersetzen Sie map
durch flatMap
das wird dir ein
geben %Vor%und dann können Sie sortBy (_._ 1) auf der obigen RDD aufrufen.
Als Alternative zur @ gasparms-Lösung kann man einen Filter ausprobieren, gefolgt von rdd.sortyBy. Sie filtern jeden Datensatz, der die Schlüsselkriterien erfüllt. Voraussetzung ist, dass Sie alle Ihre Schlüssel (Filterkombinationen) im Auge behalten müssen. Sie können es auch beim Durchqueren von Datensätzen erstellen.
Tags und Links scala sorting apache-spark