apache-spark-sql, Seitenzahl 1

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ qstntxt ___

Gibt es einen einfachen Weg, wie %code% für eine Array-Spalte in SparkSQL %code% verwendet? Es ist relativ einfach in Scala, aber diese Funktion scheint in Java nicht verfügbar zu sein (wie in javadoc erwähnt).

Eine Option ist die Verwendung von %code% und %code% function innerhalb der Abfrage, aber ich suche nach etwas besserem und besonders sauberem Weg. %code% s werden aus Parkettdateien geladen.

___ qstnhdr ___ SparkSQL und explodieren auf Datenrahmen in Java ___ answer33145949 ___

Es scheint möglich, eine Kombination aus %code% und %code% zu verwenden, um die Spalte durch die explodierte Version zu ersetzen.

___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ answer33935766 ___

Ich habe es auf diese Weise gelöst: Sagen Sie, dass Sie eine Array-Spalte mit Jobbeschreibungen mit dem Namen "positions" für jede Person mit "fullName" haben.

Dann erhalten Sie vom ursprünglichen Schema:

%Vor%

zum Schema:

%Vor%

indem Sie:

%Vor%

___

Antwort

Wie treten Sie großen Datenrahmen in Spark SQL? (Best Practices, Stabilität, Leistung)

Ich erhalte denselben Fehler wie Fehlende Ausgabe Speicherort für Shuffle , wenn Sie in Spark SQL großen Datenfeldern beitreten. Die Empfehlung besteht darin, MEMORY_AND_DISK und / oder spark.shuffle.memoryFraction 0 festzulegen. Allerdings...

23.06.2016, 09:34

Antwort

Was passiert, wenn Spark ShuffleBlockFetcherIterator aufruft?

Mein Funkenjob scheint viel Zeit damit zu verschwenden, Blöcke zu bekommen. Manchmal dauert es eine Stunde oder zwei Stunden. Ich habe 1 Partition für mein Dataset, deshalb bin ich mir nicht sicher, warum es so viel mischt. Wer weiß, was genau h...

17.12.2015, 02:13

Antwort

ON DUPLICATE KEY UPDATE beim Einfügen von pyspark dataframe in eine externe Datenbanktabelle über JDBC

Nun, ich benutze PySpark und ich habe einen Spark-Datenrahmen, mit dem ich die Daten in eine MySQL-Tabelle einfüge. url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append")...

16.09.2015, 11:21

Antwort

Spark SQL konnte das Schreiben von Parquet-Daten mit einer großen Anzahl von Shards nicht abschließen

Ich versuche, Apache Spark SQL zu verwenden, um JSL-Protokolldaten in S3 in Parquet-Dateien auch auf S3 zu setzen. Mein Code ist im Grunde: %Vor% Dieser Code funktioniert, wenn ich bis zu 2000 Partitionen habe und für 5000 oder mehr fehlschl...

10.10.2014, 02:46

Antworten

Übergeben einer Datenrahmenspalte und einer externen Liste an udf unter withColumn

Ich habe einen Spark-Datenrahmen mit folgender Struktur. Das bodyText_token hat die Tokens (verarbeitete Wörter). Und ich habe eine verschachtelte Liste von definierten Schlüsselwörtern %Vor% Ich musste überprüfen, wie viele Tokens unter die...

24.05.2016, 09:42

Antworten

Wie kann ich zusätzliche Parameter an UDFs in SparkSql übergeben?

Ich möchte die Datumsspalten in DataFrame analysieren, und für jede Datumsspalte kann sich die Auflösung für das Datum ändern (z. B. 2011/01/10 = & gt; 2011/01, wenn die Auflösung auf "Monat" eingestellt ist "). Ich habe den folgenden Code...

22.02.2016, 05:47

Antworten

Verbinden von zwei Datenrahmen in Spark SQL und Auswählen von Spalten aus nur einer Datei

Ich habe zwei Datenrahmen in Spark SQL ( D1 und D2 ). Ich versuche, beide zu verbinden D1.join(D2, "some column") und erhalten Daten von nur D1, nicht den vollständigen Datensatz . Sowohl D1 als auch D2 haben die gleichen Spalten. K...

02.08.2016, 13:02

Antworten

Wie kann man eine Struktur in einem Spark-Dataframe glätten?

Ich habe einen Datenrahmen mit folgender Struktur: %Vor% Wie es möglich ist, die Struktur zu glätten und einen neuen Datenrahmen zu erstellen: %Vor% Gibt es etwas wie explodieren, aber für Strukturen?

03.08.2016, 21:24

Antwort

Spark SQL führt eine Carthesian-Join statt einer Inner Join durch

Ich versuche, zwei Datenrahmen miteinander zu verbinden, nachdem ich einige frühere Berechnungen durchgeführt habe. Der Befehl ist einfach: %Vor% Der Join scheint jedoch einen Carthesian-Join auszuführen, wobei er meine ===-Anweisung vollstä...

24.08.2015, 20:06

Antworten

Explosion in PySpark

Ich möchte von einem DataFrame, der Listen von Wörtern enthält, in einen DataFrame mit jedem Wort in einer eigenen Zeile transformieren. Wie mache ich eine Explosion in einer Spalte in einem DataFrame? Hier ist ein Beispiel mit einigen mei...

05.07.2016, 18:45