orc

Das ORC-Dateiformat (Optimized Row Columnar) bietet eine sehr effiziente Methode zum Speichern von Hive-Daten. Es wurde entwickelt, um Einschränkungen der anderen Hive-Dateiformate zu überwinden. Die Verwendung von ORC-Dateien verbessert die Leistung, wenn Hive Daten liest, schreibt und verarbeitet.
3
Antworten

Zusammenfassen mehrerer Spalten mit benutzerdefinierten Funktionen in Spark

Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Dataframes über mehrere Spalten hinweg anzugeben. Ich habe eine solche Tabelle vom Typ (Name, Artikel, Preis): %Vor% zu: Ich möc...
09.06.2016, 23:38