Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
Ich habe eine Tabelle:
%Vor%
Ich möchte die Summe aller Produkte für jede Gruppe von "Schlüssel" finden und an jede Zeile anhängen. Zum Beispiel für Schlüssel = 1, finde die Summe der Kosten aller Produkte (20 + 10 + 5 = 35) und hänge dann d...
Ich muss mein Hadoop-Ergebnis im .csv-Format ausgeben.
Wie werde ich das tun?
Mein Code: Ссылка
sollte ich einfach csvoutputFormat in meinen Code aufnehmen.
Ich verwende mapreduce API
myjob.sh
%Vor%
LÖSUNG
ys ich fehlte & gt; in...
Ich habe eine Bienenstockabfrage:
%Vor%
Dann versuche ich die Daten mit sqoop zu exportieren
%Vor%
Aber das scheint die Felder nicht nach Trennzeichen zu analysieren
Was vermisse ich?
Ich denke, der - Eingabefelder - terminiert durch 0x...
Ich speichere Daten in hbase mit 5 Regionsservern. Ich benutze md5 Hash von URL als meine Zeilenschlüssel. Derzeit werden alle Daten nur in einem Regionsserver gespeichert. Daher möchte ich die Regionen vorab aufteilen, so dass die Daten einheit...
Ich habe zwei getrennte Java-Klassen, um zwei verschiedene mapreduce-Jobs zu erledigen. Ich kann sie unabhängig ausführen. Die Eingabedateien, mit denen sie arbeiten, sind für beide Jobs identisch. Meine Frage ist also, ob es möglich ist, zwei M...
Ich versuche einen hadoop-streaming-Python-Job auszuführen.
%Vor%
Ich habe sichergestellt, dass mapper.py über alle Berechtigungen verfügt. Es ist falsch zu sagen
%Vor%
Ich habe versucht, mapper.py in hdfs zu kopieren und den gleichen Li...
Ich führe Spark 1.1.0, HDP 2.1, auf einem kerberisierten Cluster aus. Ich kann Spark-Submit erfolgreich ausführen, indem ich --master yarn-client verwende und die Ergebnisse korrekt in HDFS geschrieben werden. Der Job wird jedoch nicht auf der H...
Meine MapReduce-Jobs werden in Eclipse ordnungsgemäß ausgeführt, wobei alle möglichen Hadoop- und Hive-Dateien im Eclipse-Projekt als Abhängigkeiten enthalten sind. (Dies sind die Jars, die mit einem einzelnen Knoten, lokale Hadoop-Installation,...
Wenn HBase eine Datenbank ist, in der die Dateien in HDFS gespeichert sind, wie wird dann ein zufälliger Zugriff auf ein einzelnes Datenelement in HDFS ermöglicht? Mit welcher Methode wird dies erreicht?
Aus dem Apache HBase Referenzhandbuch...
Das ist meine Datei:
Col1, Col2, Col3, Col4, Col5
Ich brauche nur Col2 und Col3 .
Momentan mache ich das:
%Vor%
Gibt es eine Möglichkeit, nur Col2 und Col3 direkt zu laden, anstatt die gesamten input und dann gener...