pyspark-sql, Seitenzahl 1

___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ tag123pypark ___ Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar. ___ tag123apachessparksql ___ Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" auf Spark, einem schnellen und universellen Cluster-Computing-System. ___ tag123sparkdataframe ___ Structured columnar Daten, analog zu Pandas oder R-Datenrahmen, aber mit einer RDD-Basis, die eine massive, verteilte SQL-ähnliche Operation ermöglicht. ___ qstnhdr ___ Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript ___ qstntxt ___

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt:

Erstellen Sie in Skript 1 einen Datenrahmen (df)
Führen Sie Skript 1 und cache df
Suchen Sie in Skript 2 Daten in df

___ tag123pypsparksql ___ Verwenden Sie dieses Tag für Fragen zum SQL-Modul in PySpark. ___ answer40359219 ___

Sie können die tatsächlichen Daten auch in einer Datei / Datenbank speichern und erneut laden. Spark stellt Methoden zu dem Zweck bereit, damit Sie die Daten für den Treiber nicht sammeln müssen.

___ answer35583957 ___

Es ist nicht möglich, Standard-Spark-Binärdateien zu verwenden. Spark %code% ist an die spezifische %code% gebunden, mit der es erstellt wurde und auf die nicht außerhalb zugegriffen werden kann.

Es gibt Tools, wie zum Beispiel Apache Zeppelin oder Databricks, die den gemeinsamen Kontext in verschiedene Sessions einfügen. Auf diese Weise können Sie temporäre Tabellen zwischen verschiedenen Sitzungen und / oder Gastsprachen freigeben.

Es gibt andere Plattformen, einschließlich %code% und Apache Ignite , die alternative Möglichkeiten zur gemeinsamen Nutzung verteilter Datenstrukturen bieten. Sie können sich auch die ansehen Livy Server .

Siehe auch: Teilen Sie SparkContext zwischen Java und R Apps unter demselben Master

___

Antwort

ON DUPLICATE KEY UPDATE beim Einfügen von pyspark dataframe in eine externe Datenbanktabelle über JDBC

Nun, ich benutze PySpark und ich habe einen Spark-Datenrahmen, mit dem ich die Daten in eine MySQL-Tabelle einfüge. url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append")...

16.09.2015, 11:21

Antworten

Kann die col-Funktion in pyspark nicht finden

In pyspark 1.6.2 kann ich col function mit importieren %Vor% Aber wenn ich versuche, es im Github-Quellcode nachzuschlagen Ich finde keine col Funktion in functions.py Datei, wie kann Python eine Funktion importieren, die nicht ex...

20.10.2016, 19:38

Antworten

Warum gibt der Mongo Spark-Connector für eine Abfrage unterschiedliche und falsche Zahlen zurück?

Ich bewerte Mongo Spark connector für ein Projekt und bekomme die inkonsistenten Ergebnisse. Ich benutze MongoDB Server Version 3.4.5, Spark (über PySpark) Version 2.2.0, Mongo Spark Connector Version 2.11, 2.2.0 lokal auf meinem Laptop. Für mei...

09.10.2017, 17:35

Antworten

Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt: Erstellen Sie in Skript 1 einen Datenrahmen (df) Führen Sie Skript 1 und cache df aus Suchen...

23.02.2016, 16:54