hadoop

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
5
Antworten

Hive: Summe über eine angegebene Gruppe (HiveQL)

Ich habe eine Tabelle: %Vor% Ich möchte die Summe aller Produkte für jede Gruppe von "Schlüssel" finden und an jede Zeile anhängen. Zum Beispiel für Schlüssel = 1, finde die Summe der Kosten aller Produkte (20 + 10 + 5 = 35) und hänge dann d...
01.08.2014, 14:03
1
Antwort

Wie kann ich das hadoop-Ergebnis im CSV-Format ausgeben?

Ich muss mein Hadoop-Ergebnis im .csv-Format ausgeben. Wie werde ich das tun? Mein Code: Ссылка sollte ich einfach csvoutputFormat in meinen Code aufnehmen. Ich verwende mapreduce API myjob.sh %Vor% LÖSUNG ys ich fehlte & gt; in...
02.05.2013, 03:29
4
Antworten

Wie kann shoop verwendet werden, um die standardmäßige Hive-limitierte Ausgabe zu exportieren?

Ich habe eine Bienenstockabfrage: %Vor% Dann versuche ich die Daten mit sqoop zu exportieren %Vor% Aber das scheint die Felder nicht nach Trennzeichen zu analysieren Was vermisse ich? Ich denke, der - Eingabefelder - terminiert durch 0x...
24.09.2013, 10:05
3
Antworten

Wie kann ich in hbase vorteilen?

Ich speichere Daten in hbase mit 5 Regionsservern. Ich benutze md5 Hash von URL als meine Zeilenschlüssel. Derzeit werden alle Daten nur in einem Regionsserver gespeichert. Daher möchte ich die Regionen vorab aufteilen, so dass die Daten einheit...
27.01.2015, 08:11
4
Antworten

Hadoop MapReduce: Können zwei Mapper und Reducer in einer Hadoop-Jobklasse definiert werden?

Ich habe zwei getrennte Java-Klassen, um zwei verschiedene mapreduce-Jobs zu erledigen. Ich kann sie unabhängig ausführen. Die Eingabedateien, mit denen sie arbeiten, sind für beide Jobs identisch. Meine Frage ist also, ob es möglich ist, zwei M...
20.06.2012, 15:23
8
Antworten

Hadoop Streaming - Dateifehler konnte nicht gefunden werden

Ich versuche einen hadoop-streaming-Python-Job auszuführen. %Vor% Ich habe sichergestellt, dass mapper.py über alle Berechtigungen verfügt. Es ist falsch zu sagen %Vor% Ich habe versucht, mapper.py in hdfs zu kopieren und den gleichen Li...
02.12.2010, 20:56
1
Antwort

Funke-Submit mit --master yarn-cluster laufen lassen: Problem mit Funke-Baugruppe

Ich führe Spark 1.1.0, HDP 2.1, auf einem kerberisierten Cluster aus. Ich kann Spark-Submit erfolgreich ausführen, indem ich --master yarn-client verwende und die Ergebnisse korrekt in HDFS geschrieben werden. Der Job wird jedoch nicht auf der H...
18.12.2014, 22:59
5
Antworten

Hadoop: java.lang.IncompatibleClassChangeError: Gefundene Schnittstelle org.apache.hadoop.mapreduce.JobContext, aber Klasse wurde erwartet

Meine MapReduce-Jobs werden in Eclipse ordnungsgemäß ausgeführt, wobei alle möglichen Hadoop- und Hive-Dateien im Eclipse-Projekt als Abhängigkeiten enthalten sind. (Dies sind die Jars, die mit einem einzelnen Knoten, lokale Hadoop-Installation,...
25.03.2014, 09:30
2
Antworten

Wie aktiviert HBase den wahlfreien Zugriff auf HDFS?

Wenn HBase eine Datenbank ist, in der die Dateien in HDFS gespeichert sind, wie wird dann ein zufälliger Zugriff auf ein einzelnes Datenelement in HDFS ermöglicht? Mit welcher Methode wird dies erreicht? Aus dem Apache HBase Referenzhandbuch...
21.01.2014, 03:59
1
Antwort

Nur bestimmtes Feld in PIG laden?

Das ist meine Datei: Col1, Col2, Col3, Col4, Col5 Ich brauche nur Col2 und Col3 . Momentan mache ich das: %Vor% Gibt es eine Möglichkeit, nur Col2 und Col3 direkt zu laden, anstatt die gesamten input und dann gener...
31.12.2013, 14:49