hadoop

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
3
Antworten

MultipleTextOutputFormat Alternative in der neuen API

Wie bereits erwähnt, wurde MultipleTextOutputFormat nicht auf die neue API migriert. Wenn wir also ein Ausgabeverzeichnis auswählen und fiename basierend auf dem im laufenden Betrieb geschriebenen Schlüsselwert ausgeben müssen, welche Alternativ...
26.02.2013, 22:26
2
Antworten

Spark - Container läuft über die Grenzen des physischen Speichers hinaus

Ich habe einen Cluster aus zwei Arbeiterknoten. Worker_Node_1 - 64 GB RAM Worker_Node_2 - 32 GB RAM Background Summery: Ich versuche, funke-submit auf yarn-cluster auszuführen, um Pregel auf einem Graphen auszuführen, um die kürzesten Pfadd...
17.11.2015, 14:34
1
Antwort

Wie entferne doppelte Spalten nach einem JOIN in Pig?

Sagen wir, ich habe JOIN zwei Relationen wie: %Vor% Die Ausgabe ist: %Vor% Beachten Sie, dass remove(the duplicate key joiner) zweimal in jedem Tupel angezeigt wird. ZB: %Vor% Ich kann den doppelten Schlüssel manuell entfernen,...
20.04.2014, 05:13
5
Antworten

Wenn HBase als Quelle für MapReduce verwendet wird, kann ich TableInputFormatBase erweitern, um mehrere Teilbereiche und mehrere Mapper für jede Region zu erstellen?

Ich denke darüber nach, HBase als Quelle für einen meiner MapReduce-Jobs zu verwenden. Ich weiß, dass TableInputFormat eine Eingabeaufteilung (und damit einen Mapper) pro Region angibt. Dies scheint jedoch ineffizient zu sein. Ich würde wirklich...
14.06.2012, 18:54
3
Antworten

HBASE 0.94.1 Kompatibilität mit hadoop

Ich bin neu in HBASE und HADOOP und würde verfügbare kompatible Versionen von hbase und hadoop benötigen, um meine Experimente auszuführen. Die aktuelle stabile Version von at "http://apache.techartifact.com/mirror/hbase/" lautet hbase-0.94.1...
09.09.2012, 08:41
1
Antwort

Sternschema in der Struktur generieren

Ich komme aus der SQL-Datawarehouse-Welt, wo ich aus einem flachen Feed Dimensions- und Faktentabellen erzeuge. In allgemeinen Data Warehouse-Projekten teilen wir Feeds in Fakten und Dimensionen ein. Ex: Ich bin völlig neu in Hadoop und...
28.03.2017, 12:59
1
Antwort

Kann Hadoop nicht mit Cloudera Manager installieren

Ich versuche, den Hadoop-Cluster in einer einzigen VM einzurichten (der Einfachheit halber) mit cloudera Manager 5.9. Die folgenden sind die Details meiner Umgebung: %Vor% Ich habe den Cloudera Manager installiert und gemäß den Anweisungen v...
17.12.2016, 17:23
2
Antworten

make spark verwendet die Datei / etc / hosts für die Bindung im YARN-Cluster-Modus

Lassen Sie ein Funke-Cluster-Setup auf einem Computer mit zwei Inet, einem öffentlichen anderen privaten. Die Datei / etc / hosts im Cluster hat die interne IP-Adresse aller anderen Maschinen im Cluster, so.    interner_ip FQDN Wenn ich j...
08.11.2015, 06:33
1
Antwort

Verwendung von Bienentisch über Parkett in Schwein

Ich versuche, eine Hive-Tabelle mit Schema string, string, double in einem Ordner zu erstellen, der zwei Parquet-Dateien enthält. Das erste Parkettdateischema ist string, string, double und das Schema der zweiten Datei ist string, double, s...
20.01.2016, 01:58
1
Antwort

Spark-Treiber wurde vom Master dissoziiert und entfernt

Ich habe einen Cluster, der von zwei Slaves und einem Master erstellt und eingerichtet wurde, und ich übergebe dem Master (192.168.1.64) ein Jar (Scala): %Vor% Nach einiger Zeit, wenn es gut läuft, stoppt es abrupt, wobei die letzten Zeilen...
19.08.2015, 15:08