hadoop, Seitenzahl 17

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.

Antwort

Hadoop - textouputformat.separator Verwenden Sie ctrlA (^ A)

Ich versuche, ^ A als Trennzeichen zwischen Schlüssel und Wert in meinen reduzierten Ausgabedateien zu verwenden. Ich habe festgestellt, dass die Konfigurationseinstellung "mapred.textoutputformat.separator" genau das ist, was ich möchte, und di...

20.11.2012, 02:35

Antworten

Benutzer zum Ausführen des HIVE-Jobs aufgefordert?

Ich führe einen HIVE-Job mit meiner erweiterten Klasse UDF aus. Ich möchte den Namen des Benutzers erhalten, der meinen Job übermittelt, also verwende ich %Vor% um den Benutzernamen zu erhalten, aber das Problem ist, dass der Benutzer ma...

10.12.2013, 11:15

Antworten

Wie kann man das Problem lösen? Datei konnte nur in 0 Knoten anstelle von 1 in Hadoop repliziert werden?

Ich habe einen einfachen Hadoop-Job, der Websites crawlt und sie im HDFS zwischenspeichert. Der Mapper prüft, ob bereits eine URL im HDFS existiert und verwendet sie andernfalls, lädt die Seite herunter und speichert sie im HDFS. Wenn beim He...

03.04.2012, 04:16

Antwort

Spark Streaming mit einer dynamischen Nachschlagetabelle

Ich bin derzeit dabei, Spark-Streaming zu verwenden, um Logfile-ähnliche Einträge aufzunehmen und aus statistischen Gründen etwas zu berechnen. Es gibt Datensätze auf HDFS, auf die HBase und Hive gerade zugreifen können, die benötigt werden,...

01.02.2015, 16:13

Antwort

Ist in spark join die Tabellenreihenfolge wie beim Schwein?

Bezieht sich auf Spark - Verbinden von 2 PairRDD-Elementen Wenn Sie einen regulären Join in einem Schwein ausführen, wird die letzte Tabelle im Join nicht in den Speicher geladen, sondern stattdessen durchgestreamt. Wenn A also eine kleine...

24.02.2015, 11:24

Antwort

Wie kann ich von einer HBase-Instanz lesen, aber in eine andere schreiben?

Zur Zeit habe ich zwei Hbase-Tabellen (nennen wir sie tableA und tableB ). Mit einem einstufigen MapReduce-Job werden die Daten in tableA gelesen und in tableB gespeichert. Derzeit befinden sich beide Tabellen im selben HBase-Cluster....

09.04.2015, 19:35

Antwort

Explodieren einer Zeile mit XML-Daten in Hive

Wir haben XML-Daten in Hadoop als einzelne String-Spalte mit dem Namen XML geladen. Wir versuchen, auf Datenniveaus zu normalisieren oder es in einzelne Zeilen für die Verarbeitung zu explodieren (Sie wissen, wie eine Tabelle!) Haben explodierte...

13.03.2013, 00:44

Antwort

Wie verwendet Pig Hadoop Globs in einer 'load' Anweisung?

Wie ich bereits erwähnt , geht es mit leeren (0-Byte) Dateien nicht gut. Leider gibt es viele Möglichkeiten, wie diese Dateien erstellt werden können (auch in Hadoop Utilities ). Ich dachte, dass ich dieses Problem umgehen könnte, indem ich...

21.04.2011, 23:05

Antworten

Herstellen einer Verbindung zwischen R und einer Hive (Hadoop) -Datenbank

Weiß jemand, wie man das erreicht? Ich gehe davon aus, dass RJDBC helfen würde; aber von meinem (wahrscheinlich naiven) Verständnis ist ein bisschen Feinabstimmung notwendig, um einen Hive-Treiber dafür zu schreiben oder anzupassen. Releva...

19.05.2011, 11:24

Antwort

Amazon MapReduce Best Practices für die Log-Analyse

Ich analysiere Zugriffsprotokolle, die von Apache, Nginx, Darwin (Video-Streaming-Server) generiert wurden, und aggregiere Statistiken für jede gelieferte Datei nach Datum / Referrer / Useragent. Jede Stunde werden Tonnen von Protokollen gene...

23.03.2012, 11:47