hadoop, Seitenzahl 1

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.

Antwort

Elastische Sturmtopologie / Storm-Hadoop koexistierend

Wir evaluieren Storm für einen Einsatz, aber ich bin etwas besorgt. Wir führen derzeit Hadoop MapReduce aus und möchten einige unserer Prozesse von MapReduce auf Storm-Prozesse umstellen. Beachten Sie, dass dies einige, aber nicht alle sind. Wir...

03.01.2013, 04:01

Antworten

Verteilte Jobplanung, Verwaltung und Berichterstellung

Ich habe kürzlich mit Hadoop gespielt und war beeindruckt von der Planung, Verwaltung und Berichterstellung von MapReduce-Jobs. Es scheint, dass die Verteilung und Ausführung neuer Jobs ziemlich nahtlos verläuft und der Entwickler sich auf die...

16.12.2009, 14:12

Antworten

Was ist der beste Weg, um einzigartige Besucher mit Hadoop zu zählen?

hey alle, wir fangen gerade erst mit hadoop an und sind gespannt, was der beste Weg in mapreduce wäre, einzigartige Besucher zu zählen, wenn deine Logfiles so aussehen ... %Vor% und für jede Site wollten Sie die einzigartigen Besucher für je...

21.05.2010, 20:37

Antworten

Gibt es ein verteiltes Dateisystem, das unter Windows außer Hadoop läuft? [geschlossen]

Ich suche verzweifelt nach einem DFS, das Windows unterstützt. Das einzige solche DFS ist Hadoop HDFS, aber es ist sehr schwierig, es mit einer großen Anzahl von Windows-Rechnern zu betreiben, weil es Cygwin + SSH benötigt. Fast alle DFS-Syst...

25.06.2010, 11:48

Antwort

Wie kann ich meine Daten über die Partitionen verteilen?

Bearbeiten : Die Antwort hilft, aber ich habe meine Lösung beschrieben in: MemoryOverhead-Problem in Spark . Ich habe eine RDD mit 202092 Partitionen, die einen Datensatz liest, der von anderen erstellt wurde. Ich kann manuell sehen, dass...

06.08.2016, 01:31

Antworten

Welcher Unterschied besteht zwischen dem Ausführen eines Map-Reduce-Jobs mit dem Befehl hadoop und java?

Finden Sie viele Optionen zum Ausführen eines Map-Reduce-Programms. Kann irgendjemand Unterschiede zwischen Thesen unter Befehlen erklären? Und welche Auswirkungen hat Map-reduce auf den Job? %Vor% In diesem Befehl welcher der beste oder der...

07.08.2014, 10:28

Antworten

Speichern von Daten in SequenceFile von Apache Pig

Apache Pig kann Daten aus Hadoop-Sequenzdateien mithilfe der PiggyBank SequenceFileLoader : laden REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFi...

11.03.2010, 09:52

Antworten

Wie wird die Protokollierung in Hadoop / HDP-Komponenten konfiguriert?

Ich habe einen HDP 2.4 Cluster mit den folgenden Diensten / Komponenten: HBase Kafka MapReduce2 Sturm Oozie Unterstützungsdienste wie Zookeeper, Ambari, Yarn, HDFS, etc. Ich habe seit einigen Tagen nach diesem gesucht und würde...

17.01.2017, 11:02

Antworten

Hadoop: Wie funktioniert OutputCollector während MapReduce?

Ich möchte wissen, ob die 'instance'-Ausgabe des OutputCollectors in der Map-Funktion verwendet wird: output.collect (Schlüssel, Wert) diese -output- die Schlüsselwertpaare irgendwo speichern? Selbst wenn es an die Reducer-Funktion gesendet wird...

12.06.2012, 12:46

Antworten

Apache spark, spark-submit, was ist das Verhalten der Option --total-executor-cores

Ich führe einen Spark-Cluster über C ++ - Code, der in Python eingebunden ist. Ich teste gerade verschiedene Konfigurationen von Multi-Threading-Optionen (auf Python-Level oder Spark-Level). Ich verwende Spark mit eigenständigen Binärdateien...

04.05.2015, 13:19