pyspark

___ tag123apachespark ___ Apache Spark ist eine Open-Source-Bibliothek für die verteilte Datenverarbeitung für groß angelegte In-Memory-Datenanalyse-Computing. ___ tag123yarn ___ YARN (Yet Another Resource Negotiator) ist eine Schlüsselkomponente der Apache Hadoop-Infrastruktur der zweiten Generation. Verwenden Sie DIESE NICHT für den JavaScript / Node.js Garn-Paket-Manager (verwenden Sie stattdessen [yarnpkg])! Ursprünglich von Apache als neugestalteter Ressourcenmanager beschrieben, wird YARN jetzt als großräumiges, verteiltes Betriebssystem für Big-Data-Anwendungen einschließlich MapReduce (MR2) der nächsten Generation charakterisiert. ___ qstnhdr ___ Pyspark auf Garn-Cluster-Modus ___ tag123pypark ___ Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar. ___ answer31330600 ___

Der Grund, warum %code% mode nicht unterstützt wird, ist, dass %code% das Bootstrapping des Treiberprogramms selbst (z. B. das Programm, das einen SparkContext aufruft) auf einen YARN-Container aufruft. Ausgehend von Ihrer Aussage über das Senden von einer Django-Webanwendung klingt es so, als wolle man den Python-Code, der den SparkContext enthält, in die Web-App selbst einbetten, anstatt den Treibercode an einen YARN-Container zu senden, der dann einen separaten Spark-Job handhabt .

Dies bedeutet, dass Ihr Fall am ehesten mit %code% mode anstatt mit %code% übereinstimmt; Im %code% -Modus können Sie Ihren SparkContext-Code an beliebiger Stelle (wie in Ihrer Web-App) ausführen, während er mit YARN über die tatsächlichen Mechanismen laufender Jobs spricht.

Wenn Sie einen speicherinternen Status zwischen Ihrer Webanwendung und Ihrem Spark-Code teilen, bedeutet dies grundsätzlich, dass Sie den Spark-Teil nicht abtrennen können, um ihn in einem YARN-Container auszuführen, was% co_de ist % versucht zu tun. Wenn Sie keinen Status teilen, können Sie einfach einen Subprozess aufrufen, der tatsächlich %code% aufruft, um einen unabhängigen PySpark-Job zur Ausführung im %code% -Modus zu bündeln.

Zusammenfassend:

  1. Wenn Sie Ihren Spark-Code direkt in Ihre Web-App einbetten möchten, müssen Sie stattdessen %code% mode verwenden: SparkConf (). setMaster ("Garn-Client")
  2. Wenn der Spark-Code locker genug gekoppelt ist, dass %code% tatsächlich realisierbar ist, können Sie einen Python- Subprozess um %code% in %code% mode tatsächlich aufzurufen.
___ qstntxt ___

Gibt es eine Möglichkeit, pyspark-Skripte mit dem Garn-Cluster-Modus auszuführen, ohne das Spark-Submit-Skript zu verwenden? Ich brauche es auf diese Weise, weil ich diesen Code in eine Django Web App integrieren werde.

Wenn ich versuche, irgendein Skript im Garn-Cluster-Modus auszuführen, habe ich den folgenden Fehler:

%Vor%

Ich erstelle den sparkContext folgendermaßen:

%Vor%

Danke

    
___
1
Antwort

Verbinden von DynamoDB aus dem Spark-Programm zum Laden aller Elemente aus einer Tabelle mit Python?

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken, die dies in Spark ermöglichen?     
04.02.2016, 19:18
1
Antwort

Spark: Effizientere Aggregation zum Verknüpfen von Strings aus verschiedenen Zeilen

Ich arbeite gerade mit DNA-Sequenzdaten und bin in einen Performance-Roadblock geraten. Ich habe zwei Nachschlagewörterbücher / Hashes (als RDDs) mit DNA-Wörtern (kurze Sequenzen) als Schlüssel und einer Liste von Indexpositionen als Wert. Ei...
19.12.2015, 20:57
2
Antworten

PySpark Logging?

Ich möchte, dass mein in Python geschriebenes Spark-Treiberprogramm einige grundlegende Protokollierungsinformationen ausgibt. Es gibt drei Möglichkeiten, dies zu sehen: Verwenden der PySpark py4j-Bridge, um auf die von Spark verwendete Java...
18.05.2016, 06:19
5
Antworten

Pyspark kann nicht ausgeführt werden

Ich habe Spark unter Windows installiert und kann pyspark nicht starten. Wenn ich c:\Spark\bin\pyspark eintippe, erhalte ich den folgenden Fehler:    Python 3.6.0 | Anaconda benutzerdefiniert (64-Bit) | (Standard, 23. Dezember 2016, 11:...
20.02.2017, 16:45
1
Antwort

Pyspark auf Garn-Cluster-Modus

Gibt es eine Möglichkeit, pyspark-Skripte mit dem Garn-Cluster-Modus auszuführen, ohne das Spark-Submit-Skript zu verwenden? Ich brauche es auf diese Weise, weil ich diesen Code in eine Django Web App integrieren werde. Wenn ich versuche, irg...
09.07.2015, 20:11