Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

Question

Wie speichere ich einen Spark-Datenrahmen und referenziere ihn in einem anderen Skript

8

Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt:

Erstellen Sie in Skript 1 einen Datenrahmen (df)
Führen Sie Skript 1 und cache df
Suchen Sie in Skript 2 Daten in df

apache-spark pyspark spark-dataframe apache-spark-sql pyspark-sql

Matthew Buxbaum 23.02.2016, 16:54

quelle

2 Antworten

0

Sie können die tatsächlichen Daten auch in einer Datei / Datenbank speichern und erneut laden. Spark stellt Methoden zu dem Zweck bereit, damit Sie die Daten für den Treiber nicht sammeln müssen.

ThatDataGuy 01.11.2016 11:32

quelle

Tags und Links apache-spark pyspark spark-dataframe apache-spark-sql pyspark-sql

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Drücken Sie den Status 404 mit react-router

score 4 · Accepted Answer

Es ist nicht möglich, Standard-Spark-Binärdateien zu verwenden. Spark DataFrame ist an die spezifische SQLContext gebunden, mit der es erstellt wurde und auf die nicht außerhalb zugegriffen werden kann.

Es gibt Tools, wie zum Beispiel Apache Zeppelin oder Databricks, die den gemeinsamen Kontext in verschiedene Sessions einfügen. Auf diese Weise können Sie temporäre Tabellen zwischen verschiedenen Sitzungen und / oder Gastsprachen freigeben.

Es gibt andere Plattformen, einschließlich spark-jobserver und Apache Ignite , die alternative Möglichkeiten zur gemeinsamen Nutzung verteilter Datenstrukturen bieten. Sie können sich auch die ansehen Livy Server .

Siehe auch: Teilen Sie SparkContext zwischen Java und R Apps unter demselben Master