apache-spark-sql

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstntxt ___

Gibt es einen einfachen Weg, wie %code% für eine Array-Spalte in SparkSQL %code% verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt).

Eine Option ist die Verwendung von %code% und %code% function innerhalb der Abfrage, aber ich suche nach etwas besserem und besonders sauberem Weg. %code% s werden aus Parkettdateien geladen.

    
___ qstnhdr ___ SparkSQL und explodieren auf Datenrahmen in Java ___ answer33145949 ___

Es scheint möglich, eine Kombination aus %code% und %code% zu verwenden, um die Spalte durch die explodierte Version zu ersetzen.

    
___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ answer33935766 ___

Ich habe es auf diese Weise gelöst: Sagen Sie, dass Sie eine Array-Spalte mit Jobbeschreibungen mit dem Namen "positions" für jede Person mit "fullName" haben.

Dann erhalten Sie vom ursprünglichen Schema:

%Vor%

zum Schema:

%Vor%

indem Sie:

%Vor%     
___
1
Antwort

NullPointerException nach dem Extrahieren einer Teradata-Tabelle mit Scala / Spark

Ich muss eine Tabelle von Teradata (nur Lesezugriff) auf Parkett mit Scala (2.11) / Spark (2.1.0) extrahieren. Ich baue einen Datenrahmen, den ich erfolgreich laden kann %Vor% Aber df.show gibt mir eine NullPointerException: %Vor% Ich...
29.08.2017, 08:07
1
Antwort

Verbinden von DynamoDB aus dem Spark-Programm zum Laden aller Elemente aus einer Tabelle mit Python?

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken, die dies in Spark ermöglichen?     
04.02.2016, 19:18
0
Antworten

Optimieren von funkenarmen Früchten, insbesondere Katalysatoroptimierer und Funkenkonfigurationen [geschlossen]

Ich benutze Spark 2.1.1, und ich benutze die Scala API, obwohl die Sprache weniger wichtig ist. Ich bin daran interessiert, Funkenabfragen / Pipelines effizient zu optimieren. Ich habe viel Material gelesen (einschließlich des großartigen "Learn...
06.12.2017, 02:05
3
Antworten

Wie wird eine programmgesteuerte Verbindung zu einem Hive-Metastore in SparkSQL hergestellt?

Ich benutze HiveContext mit SparkSQL und versuche, mich mit einem entfernten Hive-Metastor zu verbinden. Die einzige Möglichkeit, den Hive-Metastore zu setzen, besteht darin, die hive-site.xml in den Klassenpfad einzubinden (oder in / etc zu kop...
13.08.2015, 06:04
2
Antworten

Filter Spark DataFrame, indem mit anderen Kriterien geprüft wird, ob der Wert in einer Liste enthalten ist

Als vereinfachtes Beispiel habe ich versucht, einen Spark DataFrame mit folgendem Code zu filtern: %Vor% Dann ist es falsch: %Vor% Was ist der richtige Weg? Es scheint mir, dass es nach name column aufhört zu lesen. Ist es ein Fehler...
29.11.2015, 09:55
1
Antwort

DataFrame / Dataset groupBy Verhalten / Optimierung

Angenommen, DataFrame df besteht aus den folgenden Spalten:    Name, Nachname, Größe, Breite, Länge, Wiegen Nun möchten wir ein paar Operationen ausführen, zum Beispiel wollen wir ein paar Datenrahmen erstellen, die Daten über Größe un...
02.10.2015, 08:08
1
Antwort

Filter Spark DataFrame basiert auf einem anderen Datenrahmen, der Kriterien für die Blacklist angibt

Ich habe eine largeDataFrame (mehrere Spalten und Milliarden von Zeilen) und eine smallDataFrame (einzelne Spalte und 10.000 Zeilen). Ich möchte alle Zeilen aus dem largeDataFrame filtern, wenn die Spalte some_identifier in large...
06.10.2016, 04:27
2
Antworten

SparkSQL und explodieren auf Datenrahmen in Java

Gibt es einen einfachen Weg, wie explode für eine Array-Spalte in SparkSQL DataFrame verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt). Eine Option ist die V...
06.08.2015, 15:03