apache-spark-sql

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstntxt ___

Gibt es einen einfachen Weg, wie %code% für eine Array-Spalte in SparkSQL %code% verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt).

Eine Option ist die Verwendung von %code% und %code% function innerhalb der Abfrage, aber ich suche nach etwas besserem und besonders sauberem Weg. %code% s werden aus Parkettdateien geladen.

    
___ qstnhdr ___ SparkSQL und explodieren auf Datenrahmen in Java ___ answer33145949 ___

Es scheint möglich, eine Kombination aus %code% und %code% zu verwenden, um die Spalte durch die explodierte Version zu ersetzen.

    
___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ answer33935766 ___

Ich habe es auf diese Weise gelöst: Sagen Sie, dass Sie eine Array-Spalte mit Jobbeschreibungen mit dem Namen "positions" für jede Person mit "fullName" haben.

Dann erhalten Sie vom ursprünglichen Schema:

%Vor%

zum Schema:

%Vor%

indem Sie:

%Vor%     
___
2
Antworten

Kann die col-Funktion in pyspark nicht finden

In pyspark 1.6.2 kann ich col function mit importieren %Vor% Aber wenn ich versuche, es im Github-Quellcode nachzuschlagen Ich finde keine col Funktion in functions.py Datei, wie kann Python eine Funktion importieren, die nicht ex...
20.10.2016, 19:38
3
Antworten

Erlöschen aller Daten in (py) spark

Ich bin eine Funkenanwendung mit mehreren Punkten, wo ich gerne den aktuellen Zustand beibehalten möchte. Dies ist normalerweise nach einem großen Schritt oder Zwischenspeichern eines Zustands, den ich gerne mehrmals verwenden würde. Es scheint,...
28.04.2016, 05:08
1
Antwort

Spark SQL - Wie schreibe ich DataFrame in eine Textdatei?

Ich verwende Spark SQL für das Lesen von Parkett und das Schreiben von Parkettfeilen. Aber in einigen Fällen muss ich die DataFrame als Textdatei anstelle von Json oder Parquet schreiben. Werden irgendwelche Standardmethoden unterstü...
15.03.2016, 12:10
5
Antworten

DataFrame-Gleichheit in Apache Spark

Angenommen df1 und df2 sind zwei DataFrame s in Apache Spark, die mit zwei verschiedenen Mechanismen berechnet wurden, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es einen idiomatischen Weg, um zu bestimmen, ob d...
03.07.2015, 02:00
1
Antwort

Spark Heap Speicher Config und Wolfram

Ich dachte, dass Funke mit der Integration des Projekts "tungeste" automatisch Off-Heap-Speicher verwenden würde. Was für sind spark.memory.offheap.size und spark.memory.offheap.enabled? Muss ich hier manuell den Umfang des Off-Heap-Speichers...
10.04.2017, 18:55
1
Antwort

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism?

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism ? Ich habe versucht, beide in SparkSQL zu setzen, aber die Aufgabennummer der zweiten Stufe ist immer 200.     
16.08.2017, 02:22
2
Antworten

Lesen von JSON-Dateien in Spark Dataset und Hinzufügen von Spalten aus einer separaten Map

Spark 2.1 und Scala 2.11 hier. Ich habe eine große Map[String,Date] , die 10K Schlüssel / Wert-Paare enthält. Ich habe auch 10K JSON-Dateien auf einem Dateisystem, das für Spark zugänglich ist: %Vor% Jedes KV-Paar in der Karte entspricht d...
01.08.2017, 18:15
1
Antwort

SparkSQL, Thrift Server und Tableau

Ich frage mich, ob es einen Weg gibt, der die Tabelle sparkSQL in sqlContext direkt für andere Prozesse sichtbar macht, zum Beispiel für Tableau. Ich habe etwas über Spar-Server recherchiert, aber ich habe keine spezifische Erklärung da...
23.07.2015, 20:25
1
Antwort

Wie passen Dataframe-Spaltennamen zu Scala-Fallklassenattributen zusammen?

Die Spaltennamen in diesem Beispiel von spark-sql stammen von case class Person . %Vor% Ссылка In vielen Fällen können die Parameternamen jedoch geändert werden. Dies würde dazu führen, dass Spalten nicht gefunden werden, wenn die Dat...
12.09.2015, 04:50
1
Antwort

Übergeben Sie Array als UDF-Parameter in Spark SQL

Ich versuche, einen Datenrahmen über eine Funktion zu transformieren, die ein Array als Parameter verwendet. Mein Code sieht ungefähr so ​​aus: %Vor% Aber beleuchtet Arrays und diese Skriptfehler nicht. Ich habe versucht, eine neue teilweise...
24.06.2015, 20:38