hadoop, Seitenzahl 4

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.

Antworten

JAVA _Home ist nicht in Hadoop festgelegt

Ich bin ein Anfänger mit hadoop und versuche, hadoop in meinem Ubuntu als Einzelknotencluster zu installieren und auszuführen. Das ist mein JAVA_HOME in meinem hadoop_env.sh %Vor% Aber wenn ich es starte, kommen die folgenden Fehler - %Vor...

17.12.2013, 07:15

Antwort

Spark: Welche Optionen können mit DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden?

Weder die Entwickler- noch die API-Dokumentation enthält einen Hinweis darauf, welche Optionen in DataFrame.saveAsTable oder DataFrameWriter.options übergeben werden können, und sie würden sich auf das Speichern einer Hive-Tabelle auswirke...

18.07.2015, 02:43

Antworten

Pyspark: Liste der Dateien / Verzeichnisse im HDFS-Pfad abrufen

Wie im Titel. Ich kenne textFile, aber wie der Name schon sagt, funktioniert es nur für Textdateien. Ich müsste auf die Dateien / Verzeichnisse in einem Pfad auf HDFS (oder lokalen Pfad) zugreifen. Ich benutze pyspark Danke für die Hilfe ...

02.03.2016, 14:53

Antworten

Was läuft zuerst: der Partitionierer oder der Kombinierer?

Ich habe mich gefragt, zwischen Partitionierer und Combiner, der zuerst läuft? Ich war der Meinung, dass es zuerst der Partitiner und dann der Combiner ist und dann werden die Schlüssel zu verschiedenen Reduzierern umgeleitet, was wie der Par...

27.02.2014, 06:56

Antworten

Daten von einer Hive-Tabelle in eine andere mit Partition laden

Ich habe Daten in einer Hive-Tabelle und möchte Daten in eine andere Hive-Tabelle laden. Die Quellentabelle ist reg_logs mit 2 Partitionen, Datum und Stunde. Die Daten werden stündlich in diese Tabelle geladen. Das Schema ist: %Vor% Die Z...

13.06.2014, 18:05

Antworten

Problem beim Kopieren lokaler Daten in HDFS auf einem Hadoop-Cluster mit Amazon EC2 / S3

Ich habe einen Hadoop-Cluster mit 5 Knoten auf Amazon EC2 eingerichtet. Jetzt, wenn ich mich am Master-Knoten anmelde und den folgenden Befehl abschicke %Vor% Es wirft die folgenden Fehler (nicht zur gleichen Zeit). Der erste Fehler wird gew...

09.06.2010, 20:44

Antworten

Wie behebe ich den Fehler "Illegale Partition" in hadoop?

Ich habe einen benutzerdefinierten Partitionierer geschrieben. Wenn die Anzahl der Reduzierungsaufgaben größer als 1 ist, schlägt der Job fehl. Dies ist die Ausnahme, die ich bekomme: %Vor% Der Code, den ich geschrieben habe, ist %Vor% D...

22.02.2013, 19:14

Antworten

Hadoop-Anfänger [geschlossen]

Ich versuche, einige Data-Mining-Algorithmen mit hadoop zu üben. Kann ich das mit HDFS alleine machen, oder muss ich die Unterprojekte wie hive / hbase / pig verwenden?

19.07.2010, 00:18

Antworten

Cluster kann nicht initialisiert werden. Überprüfen Sie Ihre Konfiguration für mapreduce.framework.name und die entsprechenden Serveradressen, indem Sie job2remoteClustr einreichen

Ich habe meinen Cluster kürzlich von Apache Hadoop1.0 auf CDH4.4.0 aktualisiert. Ich habe einen Weblogic-Server in einer anderen Maschine, von wo aus ich Jobs über mapreduce-Client an diesen Remote-Cluster übergebe. Ich möchte immer noch MR1 und...

27.09.2013, 06:21

Antworten

Amazon Elastic Map Reduce - Erstellen eines Jobablaufs

Ich bin sehr neu bei Amazon Diensten. Ich habe Probleme bei der Schaffung von Arbeitsabläufen. Jedes Mal, wenn ich einen Jobfluss erstelle, schlägt er fehl oder wird heruntergefahren. Input-, Output- oder Mapper-Funktionen Upload-Techniken sind...

22.01.2013, 11:57