apache-spark-sql

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstntxt ___

Gibt es einen einfachen Weg, wie %code% für eine Array-Spalte in SparkSQL %code% verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt).

Eine Option ist die Verwendung von %code% und %code% function innerhalb der Abfrage, aber ich suche nach etwas besserem und besonders sauberem Weg. %code% s werden aus Parkettdateien geladen.

    
___ qstnhdr ___ SparkSQL und explodieren auf Datenrahmen in Java ___ answer33145949 ___

Es scheint möglich, eine Kombination aus %code% und %code% zu verwenden, um die Spalte durch die explodierte Version zu ersetzen.

    
___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ answer33935766 ___

Ich habe es auf diese Weise gelöst: Sagen Sie, dass Sie eine Array-Spalte mit Jobbeschreibungen mit dem Namen "positions" für jede Person mit "fullName" haben.

Dann erhalten Sie vom ursprünglichen Schema:

%Vor%

zum Schema:

%Vor%

indem Sie:

%Vor%     
___
1
Antwort

Spark unionAlle mehrere Datenframes

Für eine Reihe von Datenrahmen %Vor% um sie alle zu vereinigen, mache ich %Vor% Gibt es eine elegante und skalierbare Möglichkeit, dies für eine beliebige Anzahl von Datenrahmen zu tun, zum Beispiel von %Vor%     
03.06.2016, 11:00
2
Antworten

MinMax Normalisierung in scala

Ich habe eine org.apache.spark.sql.DataFrame mit mehreren Spalten. Ich möchte 1 Spalte (lat_long_dist) skalieren mit MinMax-Normalisierung oder einer beliebigen Technik, um die Daten zwischen -1 und 1 zu skalieren und den Datentyp als org.apache...
25.11.2015, 19:24
1
Antwort

Wie benutzt man orderby () in absteigender Reihenfolge in Spark-Funktionen?

Ich brauche eine Fensterfunktion, die durch einige Schlüssel (= Spaltennamen) partitioniert, nach einem anderen Spaltennamen sortiert und die Zeilen mit den obersten x-Rängen zurückgibt. Dies funktioniert in aufsteigender Reihenfolge: %Vor%...
25.07.2016, 16:21
3
Antworten

Was ist effizient, Dataframe oder RDD oder hiveql?

Ich bin ein Neuling für Apache Spark. Mein Job besteht darin, zwei CSV-Dateien zu lesen, bestimmte Spalten daraus auszuwählen, sie zusammenzuführen, zu aggregieren und das Ergebnis in eine einzige CSV-Datei zu schreiben. Zum Beispiel CS...
16.07.2015, 11:49
2
Antworten

Anzahl Aufgaben reduzieren Spark

Welche Formel verwendet Spark, um die Anzahl reduzierter Aufgaben zu berechnen? Ich führe ein paar Spark-SQL-Abfragen aus und die Anzahl der Reduzierungsaufgaben ist immer 200. Die Anzahl der Map-Aufgaben für diese Abfragen ist 154. Ich bin a...
23.10.2015, 08:12
3
Antworten

So erstellen Sie SparkSession mit Hive-Unterstützung (schlägt fehl mit "Hive-Klassen werden nicht gefunden")?

Ich erhalte diesen Fehler, wenn ich versuche, diesen Code auszuführen. %Vor% Ausgabe:    Ausnahme im Thread "main" java.lang.IllegalArgumentException: Kann SparkSession mit Hive-Unterstützung nicht instanziieren, weil Hive-Klassen nicht g...
12.09.2016, 06:31
3
Antworten

Einfügen von Analytic-Daten von Spark nach Postgres

Ich habe eine Cassandra-Datenbank, von der ich die Daten mit SparkSQL über Apache Spark analysiert habe. Jetzt möchte ich diese analysierten Daten in PostgreSQL einfügen. Gibt es irgendwelche Möglichkeiten, dies direkt zu erreichen, abgesehen vo...
03.02.2015, 12:17
1
Antwort

Spark: Speichern von Dataframe partitioniert durch "virtuelle" Spalte

Ich benutze PySpark, um einen klassischen ETL-Job zu machen (Datensatz laden, verarbeiten, speichern) und möchte meinen Dataframe als Dateien / Verzeichnis speichern, das durch eine "virtuelle" Spalte partitioniert ist; Was ich mit "virtual" mei...
16.02.2016, 16:07
3
Antworten

So erstellen Sie eine Zeile aus einer Liste oder einem Array in Spark mit Scala

Ich versuche eine Zeile ( org.apache.spark.sql.catalyst.expressions.Row ) basierend auf der Benutzereingabe zu erstellen. Ich kann keine Zeile zufällig erstellen. Gibt es Funktionen zum Erstellen einer Zeile aus List oder Array ....
23.01.2015, 10:43
2
Antworten

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei in Amazon S3

Die Amazon S3-Dateigrößenbeschränkung soll gemäß dieser Ankündigung , aber ich bekomme den folgenden Fehler beim Hochladen einer 5G-Datei %Vor% Das lässt den Eindruck entstehen, dass S3 nur 5G-Uploads akzeptiert. Ich verwende Apache Spark S...
11.10.2014, 22:15