yarn

YARN (Yet Another Resource Negotiator) ist eine Schlüsselkomponente der Apache Hadoop-Infrastruktur der zweiten Generation. Verwenden Sie DIESE NICHT für den JavaScript / Node.js Garn-Paket-Manager (verwenden Sie stattdessen [yarnpkg])! Ursprünglich von Apache als neugestalteter Ressourcenmanager beschrieben, wird YARN jetzt als großräumiges, verteiltes Betriebssystem für Big-Data-Anwendungen einschließlich MapReduce (MR2) der nächsten Generation charakterisiert.
4
Antworten

PySpark verteilte Verarbeitung auf einem YARN-Cluster

Ich habe Spark auf einem Cloudera CDH5.3-Cluster ausgeführt, wobei YARN als Ressourcenmanager verwendet wird. Ich entwickle Spark Apps in Python (PySpark). Ich kann Jobs einreichen und sie werden erfolgreich ausgeführt, scheinen jedoch nie au...
30.01.2015, 05:06
2
Antworten

Warum YARN Java Heap Speicherplatzfehler?

Ich möchte versuchen, Speicher in YARN zu setzen, also werde ich versuchen, einige Parameter auf yarn-site.xml und mapred-site.xml zu konfigurieren. Übrigens benutze ich hadoop 2.6.0. Aber ich erhalte einen Fehler, wenn ich einen mapreduce Job m...
12.03.2015, 04:07
1
Antwort

HADOOP / YARN - Sind der ResourceManager und der hdfs NameNode immer auf demselben Host installiert?

Sind der "Resource Manager" und der "hdfs namenode" immer auf demselben Host installiert? 1) Wenn ich eine http-Anfrage (YARN REST API) an Neue Anwendungs-ID erhalten Ich benutze diese Web-URL: %Vor% Dieser Port ist der HTTP-Port des Re...
30.03.2015, 12:19
1
Antwort

YARN: Was ist der Unterschied zwischen Anzahl der Executoren und Executor-Cores in Spark?

Ich lerne Spark bei AWS EMR. Dabei versuche ich den Unterschied zwischen der Anzahl der Executoren (- num-Executor) und Executor-Cores (--executor-cores) zu verstehen. Kann mir bitte jemand sagen? Auch wenn ich versuche, den folgenden Job ein...
25.04.2016, 23:26
3
Antworten

Spark-Job, der auf dem Yarn-Cluster ausgeführt wird java.io.FileNotFoundException: Die Datei wird nicht beendet, obwohl die Datei auf dem Master-Knoten beendet wird

Ich bin ziemlich neu in Spark. Ich habe versucht zu suchen, aber ich konnte keine richtige Lösung finden. Ich habe Hadoop 2.7.2 auf zwei Boxen installiert (ein Master-Knoten und der andere Arbeiter-Knoten) Ich habe den Cluster eingerichtet, inde...
20.04.2016, 19:37
1
Antwort

Ein MapReduce-Job kann nicht auf hadoop 2.4.0 ausgeführt werden

Ich bin neu bei hadoop und hier ist mein Problem. Ich habe Hadoop 2.4.0 mit jdk1.7.60 auf Cluster von 3 Maschinen konfiguriert. Ich kann alle Befehle von hadoop ausführen. Jetzt habe ich Wordcount Beispiel geändert und JAR-Datei erstellt. Ich ha...
30.06.2014, 00:13
2
Antworten

make spark verwendet die Datei / etc / hosts für die Bindung im YARN-Cluster-Modus

Lassen Sie ein Funke-Cluster-Setup auf einem Computer mit zwei Inet, einem öffentlichen anderen privaten. Die Datei / etc / hosts im Cluster hat die interne IP-Adresse aller anderen Maschinen im Cluster, so.    interner_ip FQDN Wenn ich j...
08.11.2015, 06:33
1
Antwort

Festlegen der maximalen Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten in Hadoop 2.4.0 auf Elastic MapReduce

Nach Ссылка , Die Formel zum Bestimmen der Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten lautet: %Vor% Beim Einstellen dieser Parameter auf (für einen Cluster von c3.2xlarges): garn.nodemanager.resource.memory-mb = 14336 ma...
07.08.2014, 22:18
0
Antworten

Spark Indefinite Waiting with "Auffordern, Kartenausgabeorte für Shuffle zu senden"

Meine Jobs hängen oft mit dieser Art von Nachricht: %Vor% Wäre großartig, wenn jemand erklären könnte, was Spark macht, wenn es diese Nachricht ausspuckt. Was bedeutet diese Nachricht? Was könnte der Benutzer falsch machen, um dies zu verurs...
01.09.2014, 07:41
3
Antworten

So beenden Sie die Spark-Submission nach der Übermittlung

Beim Einreichen eines Spark-Streaming-Programms mit Spark-Submit (YARN-Modus) es pollt weiter den Status und beendet nie Gibt es eine Option in spark-submit, um nach der Einreichung zu beenden? === warum das mich beunruhigt === Das Stre...
13.05.2016, 02:39