pyspark

___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ tag123yarn ___ YARN (Yet Another Resource Negotiator) ist eine Schlüsselkomponente der Apache Hadoop-Infrastruktur der zweiten Generation. Verwenden Sie DIESE NICHT für den JavaScript / Node.js Garn-Paket-Manager (verwenden Sie stattdessen [yarnpkg])! Ursprünglich von Apache als neugestalteter Ressourcenmanager beschrieben, wird YARN jetzt als großräumiges, verteiltes Betriebssystem für Big-Data-Anwendungen einschließlich MapReduce (MR2) der nächsten Generation charakterisiert. ___ qstnhdr ___ Pyspark auf Garn-Cluster-Modus ___ tag123pypark ___ Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar. ___ answer31330600 ___

Der Grund, warum %code% mode nicht unterstützt wird, ist, dass %code% das Bootstrapping des Treiberprogramms selbst (z. B. das Programm, das einen SparkContext aufruft) auf einen YARN-Container aufruft. Ausgehend von Ihrer Aussage über das Senden von einer Django-Webanwendung klingt es so, als wolle man den Python-Code, der den SparkContext enthält, in die Web-App selbst einbetten, anstatt den Treibercode an einen YARN-Container zu senden, der dann einen separaten Spark-Job handhabt .

Dies bedeutet, dass Ihr Fall am ehesten mit %code% mode anstatt mit %code% übereinstimmt; Im %code% -Modus können Sie Ihren SparkContext-Code an beliebiger Stelle (wie in Ihrer Web-App) ausführen, während er mit YARN über die tatsächlichen Mechanismen laufender Jobs spricht.

Wenn Sie einen speicherinternen Status zwischen Ihrer Webanwendung und Ihrem Spark-Code teilen, bedeutet dies grundsätzlich, dass Sie den Spark-Teil nicht abtrennen können, um ihn in einem YARN-Container auszuführen, was% co_de ist % versucht zu tun. Wenn Sie keinen Status teilen, können Sie einfach einen Subprozess aufrufen, der tatsächlich %code% aufruft, um einen unabhängigen PySpark-Job zur Ausführung im %code% -Modus zu bündeln.

Zusammenfassend:

  1. Wenn Sie Ihren Spark-Code direkt in Ihre Web-App einbetten möchten, müssen Sie stattdessen %code% mode verwenden: SparkConf (). setMaster ("Garn-Client")
  2. Wenn der Spark-Code locker genug gekoppelt ist, dass %code% tatsächlich realisierbar ist, können Sie einen Python- Subprozess um %code% in %code% mode tatsächlich aufzurufen.
___ qstntxt ___

Gibt es eine Möglichkeit, pyspark-Skripte mit dem Garn-Cluster-Modus auszuführen, ohne das Spark-Submit-Skript zu verwenden? Ich brauche es auf diese Weise, weil ich diesen Code in eine Django Web App integrieren werde.

Wenn ich versuche, irgendein Skript im Garn-Cluster-Modus auszuführen, habe ich den folgenden Fehler:

%Vor%

Ich erstelle den sparkContext folgendermaßen:

%Vor%

Danke

    
___
1
Antwort

Spark: Speichern von Dataframe partitioniert durch "virtuelle" Spalte

Ich benutze PySpark, um einen klassischen ETL-Job zu machen (Datensatz laden, verarbeiten, speichern) und möchte meinen Dataframe als Dateien / Verzeichnis speichern, das durch eine "virtuelle" Spalte partitioniert ist; Was ich mit "virtual" mei...
16.02.2016, 16:07
1
Antwort

Ermittelt die einzelnen Elemente jeder Gruppe nach einem anderen Feld in einem Spark 1.6 Dataframe

Ich versuche in einem Spark-Datenrahmen nach Datum zu gruppieren und zähle für jede Gruppe die eindeutigen Werte einer Spalte: %Vor% Und der Code: %Vor% Die Ergebnisse mit pyspark sind %Vor% Und was ich erwarte, ist so etwas mit Pand...
17.03.2016, 15:19
4
Antworten

PySpark & ​​MLLib: Klassenwahrscheinlichkeiten von zufälligen Waldvorhersagen

Ich versuche, die Klassenwahrscheinlichkeiten eines zufälligen Waldobjekts zu extrahieren, das ich mit PySpark trainiert habe. Ich sehe jedoch nirgendwo in der Dokumentation ein Beispiel dafür und auch keine Methode von RandomForestModel ....
02.03.2015, 20:15
2
Antworten

Kann die col-Funktion in pyspark nicht finden

In pyspark 1.6.2 kann ich col function mit importieren %Vor% Aber wenn ich versuche, es im Github-Quellcode nachzuschlagen Ich finde keine col Funktion in functions.py Datei, wie kann Python eine Funktion importieren, die nicht ex...
20.10.2016, 19:38
5
Antworten

PySpark & ​​MLLib: Zufällige Forest Feature-Bedeutungen

Ich versuche, die Feature-Imports eines zufälligen Forest-Objekts, das ich mit PySpark trainiert habe, zu extrahieren. Ich sehe jedoch kein Beispiel dafür, dies irgendwo in der Dokumentation zu tun, noch ist es eine Methode von RandomForestModel...
10.03.2015, 19:01
1
Antwort

Python / pyspark Datenrahmen Spalten neu anordnen

Ich habe einen Datenrahmen in python / pyspark mit Spalten id time city zip und so weiter ...... Jetzt habe ich eine neue Spalte name zu diesem Datenrahmen hinzugefügt. Jetzt muss ich die Spalten so anordnen, dass die Spalte...
20.03.2017, 19:16
1
Antwort

RDD in iterable konvertieren: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und vorbearbeite. Ich möchte es nicht sammeln und auf der Festplatte oder dem Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, d...
24.09.2015, 22:07
1
Antwort

Kann ich SparkContext.appName im laufenden Betrieb ändern?

Ich weiß, dass ich SparkConf.set('spark.app.name',...) um appName vor zu setzen, um SparkContext zu erstellen. Ich möchte jedoch den Namen der Anwendung ändern, wenn sie fortschreitet, d. h. nachdem SparkContext erstellt wurde...
10.06.2015, 18:48
3
Antworten

Erlöschen aller Daten in (py) spark

Ich bin eine Funkenanwendung mit mehreren Punkten, wo ich gerne den aktuellen Zustand beibehalten möchte. Dies ist normalerweise nach einem großen Schritt oder Zwischenspeichern eines Zustands, den ich gerne mehrmals verwenden würde. Es scheint,...
28.04.2016, 05:08
1
Antwort

Zugriffselement eines Vektors in einem Spark DataFrame (logistischer Regressionswahrscheinlichkeitsvektor) [duplizieren]

Ich habe ein LogisticRegression-Modell in PySpark trainiert (ML-Paket) und das Ergebnis der Vorhersage ist ein PySpark DataFrame ( cv_predictions ) (siehe [1]). Die probability -Spalte (siehe [2]) ist ein vector -Typ (siehe [3]). %Vo...
08.06.2017, 01:17