Wie kann Spark auf eine neuere Version aktualisiert werden?

8

Ich habe eine virtuelle Maschine, die Spark 1.3 hat, aber ich möchte sie auf Spark 1.5 aktualisieren, hauptsächlich wegen bestimmter unterstützter Funktionalitäten, die nicht in 1.3 waren. Ist es möglich, dass ich die Spark Version von 1.3 auf 1.5 aktualisieren kann und wenn ja, wie kann ich das tun?

    
Jason Donnald 24.11.2015, 06:55
quelle

2 Antworten

13

Vordefinierte Spark-Distributionen, wie die, die Sie meiner Meinung nach verwenden, basierend auf eine andere Frage von Ihnen , ist ziemlich einfach zu" upgraden ", da Spark nicht wirklich" installiert "ist. Eigentlich musst du nur:

  • Laden Sie die entsprechende Spark-Distribution herunter (in Ihrem Fall vorinstalliert für Hadoop 2.6 und höher)
  • Entpacken Sie die TAR-Datei in das entsprechende Verzeichnis (d. h. wo der Ordner spark-1.3.1-bin-hadoop2.6 bereits ist)
  • Aktualisieren Sie Ihre SPARK_HOME (und möglicherweise einige andere Umgebungsvariablen entsprechend Ihrer Konfiguration) entsprechend

Hier ist, was ich gerade selbst gemacht habe, um von 1.3.1 auf 1.5.2 zu wechseln, in einer ähnlichen Umgebung wie deine (vagrant VM mit Ubuntu):

1) Laden Sie die TAR-Datei in das entsprechende Verzeichnis

herunter %Vor%

Beachten Sie, dass der genaue Spiegel, den Sie mit wget verwenden sollten, sich wahrscheinlich von meinem unterscheidet, abhängig von Ihrem Standort; Sie erhalten dies durch Klicken auf den Link "Download Spark" auf der Downloadseite , nachdem Sie den zu ladenden Pakettyp ausgewählt haben .

2) Entpacken Sie die Datei tgz mit

%Vor%

Sie können sehen, dass Sie jetzt einen neuen Ordner haben, spark-1.5.2-bin-hadoop2.6 .

3) Aktualisieren Sie dementsprechend SPARK_HOME (und möglicherweise andere Umgebungsvariablen, die Sie verwenden), um auf dieses neue Verzeichnis anstatt auf das vorherige zu verweisen.

Und Sie sollten nach dem Neustart Ihres Rechners fertig sein.

Beachten Sie Folgendes:

  1. Sie müssen die vorherige Spark-Distribution nicht entfernen, solange alle relevanten Umgebungsvariablen auf die neue verweisen. Auf diese Weise können Sie sogar schnell zwischen der alten und der neuen Version hin- und herwechseln, falls Sie Dinge testen möchten (d. H. Sie müssen lediglich die relevanten Umgebungsvariablen ändern).
  2. sudo war in meinem Fall notwendig; Je nach Ihren Einstellungen ist dies möglicherweise unnötig.
  3. Nachdem sichergestellt wurde, dass alles einwandfrei funktioniert, sollten Sie die heruntergeladene tgz -Datei löschen.
  4. Sie können das gleiche Verfahren verwenden, um auf zukünftige Spark-Versionen zu aktualisieren, da diese (ziemlich schnell) herauskommen. Wenn Sie dies tun, stellen Sie entweder sicher, dass vorherige tgz -Dateien gelöscht wurden, oder ändern Sie den obigen tar -Befehl, um auf eine bestimmte Datei zu verweisen (d. H. Keine * Wildcards wie oben).
desertnaut 25.11.2015 11:10
quelle
0
  1. Setze deine SPARK_HOME auf /opt/spark
  2. Laden Sie die neueste vordefinierte Binärdatei herunter, d. h. spark-2.2.1-bin-hadoop2.7.tgz - kann wget verwenden
  3. Erstellen Sie den Symlink zum letzten Download - ln -s /opt/spark-2.2.1 /opt/spark̀

Erstellen Sie für jede neue Version einfach den Symlink dazu (Schritt 3)

  • ln -s /opt/spark-x.x.x /opt/spark̀
Nabeel Ahmed 11.12.2017 16:14
quelle

Tags und Links