apache-spark-sql

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstntxt ___

Gibt es einen einfachen Weg, wie %code% für eine Array-Spalte in SparkSQL %code% verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt).

Eine Option ist die Verwendung von %code% und %code% function innerhalb der Abfrage, aber ich suche nach etwas besserem und besonders sauberem Weg. %code% s werden aus Parkettdateien geladen.

    
___ qstnhdr ___ SparkSQL und explodieren auf Datenrahmen in Java ___ answer33145949 ___

Es scheint möglich, eine Kombination aus %code% und %code% zu verwenden, um die Spalte durch die explodierte Version zu ersetzen.

    
___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ answer33935766 ___

Ich habe es auf diese Weise gelöst: Sagen Sie, dass Sie eine Array-Spalte mit Jobbeschreibungen mit dem Namen "positions" für jede Person mit "fullName" haben.

Dann erhalten Sie vom ursprünglichen Schema:

%Vor%

zum Schema:

%Vor%

indem Sie:

%Vor%     
___
2
Antworten

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indexieren der Spalte von Strings in Features. Hier ist meine tmp.csv-Datei: %Vor% wo ich einen fehlenden Wert für 'x0' habe. Zuerst lese ich Funktionen aus der CSV-Datei mit Hilfe von pyspark_c...
06.11.2015, 20:02
2
Antworten

Mehrere Zeilen in einem Spark-Dataframe zu einer einzelnen Zeile zusammenführen

Ich habe einen Datenrahmen mit 2 Spalten: Zeitstempel, Wert Zeitstempel ist eine Zeit seit der Epoche und Wert ist ein Gleitkommawert. Ich möchte Zeilen auf Durchschnittswerte von min zusammenführen. Das bedeutet, dass ich alle Zeilen nehmen möc...
07.09.2015, 14:57
2
Antworten

SparkSQL MissingRequirementError beim Registrieren der Tabelle

Ich bin ein Neuling für Scala und Apache Spark und versuche, Spark SQL zu verwenden. Nach dem Klonen des Repo habe ich die Spark-Shell gestartet, indem ich bin/spark-shell eingegeben und folgendes ausgeführt habe: %Vor% und alles hat wi...
07.01.2015, 16:44
1
Antwort

Spark Sql RegisterTempTable und RegisterDataFrameAsTable Unterschied

Was ist der Unterschied zwischen registerTempTable und registerDataFrameAsTable Methode in Spark SQL und welche ist besser in welchem ​​Szenario?     
24.07.2015, 04:48
1
Antwort

Zurückgeben mehrerer Arrays aus der benutzerdefinierten Aggregatfunktion (UDAF) in Apache Spark SQL

Ich versuche, eine benutzerdefinierte Aggregatfunktion (UDAF) in Java mit Apache Spark SQL zu erstellen, die nach Abschluss mehrere Arrays zurückgibt. Ich habe online gesucht und kann keine Beispiele oder Vorschläge dazu finden. Ich kann ein...
26.11.2015, 13:12
2
Antworten

Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt: Erstellen Sie in Skript 1 einen Datenrahmen (df) Führen Sie Skript 1 und cache df aus Suchen...
23.02.2016, 16:54
1
Antwort

Was bedeutet Bühne in den Funkenprotokollen?

Wenn ich einen Job mit Funken starte, bekomme ich die folgenden Protokolle? [Stage 0:> (0 + 32) / 32] Hier entspricht 32 der Anzahl der Partitionen von rdd, nach denen ich gefragt habe. Aber ich verstehe nicht, waru...
07.10.2015, 14:29
3
Antworten

Effizienteres Laden von Parkettdateien in Spark (pySpark v1.2.0)

Ich lade in hochdimensionale Parkett-Dateien, brauche aber nur ein paar Spalten. Mein aktueller Code sieht so aus: %Vor% Mein geistiges Modell für das, was passiert, ist, dass es alle Daten einlädt und dann die Spalten auswirft, die ich nich...
22.04.2015, 16:33
2
Antworten

Ist das ein Fehler in Spark Stream oder Speicherleck?

Ich übermittle meinen Code an einen Funke-Standalone-Cluster. Senden Befehl ist wie folgt: %Vor% Ich spezifiziere den Executor 4G Speicher im obigen Befehl verwenden. Aber benutze den Befehl top, um den Executor-Prozess zu überwachen. Ich me...
11.05.2016, 03:14
3
Antworten

Hive Sql erhält dynamisch null Spaltenanzahl aus einer Tabelle

Ich benutze Datastax + Spark-Integration und Spark SQL-Spar-Server, die mir eine Hive-SQL-Schnittstelle zur Abfrage der Tabellen in Cassandra gibt. Die Tabellen in meiner Datenbank werden dynamisch erstellt, was ich tun möchte ist, eine Anzah...
16.06.2017, 09:29