Ist es möglich, einen Datenrahmen zwischenzuspeichern und dann in einem anderen Skript zu referenzieren (abfragen)? ... Mein Ziel ist wie folgt:
Sie können die tatsächlichen Daten auch in einer Datei / Datenbank speichern und erneut laden. Spark stellt Methoden zu dem Zweck bereit, damit Sie die Daten für den Treiber nicht sammeln müssen.
Es ist nicht möglich, Standard-Spark-Binärdateien zu verwenden. Spark %code% ist an die spezifische %code% gebunden, mit der es erstellt wurde und auf die nicht außerhalb zugegriffen werden kann.
Es gibt Tools, wie zum Beispiel Apache Zeppelin oder Databricks, die den gemeinsamen Kontext in verschiedene Sessions einfügen. Auf diese Weise können Sie temporäre Tabellen zwischen verschiedenen Sitzungen und / oder Gastsprachen freigeben.
Es gibt andere Plattformen, einschließlich %code% und Apache Ignite , die alternative Möglichkeiten zur gemeinsamen Nutzung verteilter Datenstrukturen bieten. Sie können sich auch die ansehen Livy Server .
Siehe auch: Teilen Sie SparkContext zwischen Java und R Apps unter demselben Master