hadoop-streaming

Hadoop-Streaming ist ein Dienstprogramm, mit dem Map-Reduce-Jobs mit jeder ausführbaren Datei ausgeführt werden können, die von der Standardeingabe liest und in die Standardausgabe schreibt.
2
Antworten

Hadoop: Auftrag wird in kleineren Datenmengen ausgeführt, schlägt jedoch mit großen Datenmengen fehl

Ich habe eine folgende Situation Ich habe 3 Maschinencluster mit folgender Konfiguration. Master %Vor% Slave 01 %Vor% Slave 02 %Vor% hadoop / conf / core-site.xml %Vor% hadoop / conf / mapred-site.xml %Vor%...
22.07.2012, 16:40
1
Antwort

Wie lese ich sequentielle Hadoop-Dateien?

Ich habe eine sequentielle Datei, die die Ausgabe des hadoop map-reduce-Jobs ist. In dieser Datei werden Daten in Schlüsselwertpaare geschrieben, und der Wert selbst ist eine Map. Ich möchte den Wert als ein MAP-Objekt lesen, damit ich es weiter...
25.11.2011, 05:54
1
Antwort

Amazon MapReduce Best Practices für die Log-Analyse

Ich analysiere Zugriffsprotokolle, die von Apache, Nginx, Darwin (Video-Streaming-Server) generiert wurden, und aggregiere Statistiken für jede gelieferte Datei nach Datum / Referrer / Useragent. Jede Stunde werden Tonnen von Protokollen gene...
23.03.2012, 11:47
1
Antwort

Festlegen der maximalen Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten in Hadoop 2.4.0 auf Elastic MapReduce

Nach Ссылка , Die Formel zum Bestimmen der Anzahl der gleichzeitig ausgeführten Aufgaben pro Knoten lautet: %Vor% Beim Einstellen dieser Parameter auf (für einen Cluster von c3.2xlarges): garn.nodemanager.resource.memory-mb = 14336 ma...
07.08.2014, 22:18