hadoop

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
3
Antworten

Was ist der Unterschied zwischen Oozie Workflow, Koordinator und Bundle?

Was ist der Unterschied zwischen Oozie Workflow, Koordinator und Bundle? Oozie Workflow definiert eine Abfolge von Aktionen. Und wir müssen es jedes Mal manuell aufrufen, wenn wir es ausführen wollen. Wo derselbe Workflow über den Koordinator...
23.10.2015, 10:50
1
Antwort

Erhalte den Fehler "nicht übereinstimmende Eingabe" als "erwartet von nahe") "in from-Klausel", wenn sql query Hadoop Java ausgeführt wird

Ich habe zwei Tabellen aus dem Java-Code tableHiveCell und tableHiveWiFi erstellt. Wenn ich versuche, den folgenden SQL-Befehl auszuführen: %Vor% Ich bekomme einen Fehler: %Vor% Habe ich etwas verpasst? [EDIT 1] Ich habe...
13.08.2013, 08:31
1
Antwort

Kann die dynamische Partitionierung für einen großen Datensatz in Hive nicht anwenden

Ich habe eine Tabelle test_details mit etwa 4 Millionen Datensätzen. Unter Verwendung der Daten in dieser Tabelle muss ich eine neue partitionierte Tabelle test_details_par mit Datensätzen erstellen, die auf visit_date partitioniert sin...
19.02.2014, 09:53
1
Antwort

Wie lese ich sequentielle Hadoop-Dateien?

Ich habe eine sequentielle Datei, die die Ausgabe des hadoop map-reduce-Jobs ist. In dieser Datei werden Daten in Schlüsselwertpaare geschrieben, und der Wert selbst ist eine Map. Ich möchte den Wert als ein MAP-Objekt lesen, damit ich es weiter...
25.11.2011, 05:54
3
Antworten

Große Datensätze - NoSQL, NewSQL, SQL ..? Gehirn gebraten

Ich brauche einen Rat. Ich arbeite an einem neuen Start-up im Bereich Data Mining. Dies ist im Grunde die Ausgliederung eines Forschungsprojekts. Bei jeder Art von Daten, die unstrukturiert sind, führen wir verschiedene NLP-, Klassifizierungs...
09.05.2011, 01:49
1
Antwort

Hive QL - Begrenzt die Anzahl der Zeilen pro Element

Wenn ich mehrere Elemente in einer where-Klausel aufgelistet habe Wie würde man die Ergebnisse für jedes Element in der Liste auf N beschränken? EX: %Vor%     
31.07.2012, 23:06
2
Antworten

Wie verteilt die RunJar-Methode von Hadoop class / jar-Dateien auf Knoten?

Ich versuche, die JIT-Kompilierung in clojure zu verwenden, um Mapper- und Reducer-Klassen on-the-fly zu generieren. Diese Klassen werden jedoch vom JobClient nicht erkannt (dies ist die übliche ClassNotFoundException). Wenn ich AOT kompilier...
09.08.2010, 22:06
2
Antworten

Hadoop Streaming: Mapper "umschließt" eine binäre ausführbare Datei

Ich habe eine Pipeline, die ich derzeit auf einem großen Universitätscomputercluster betreibe. Zu Veröffentlichungszwecken möchte ich es in mapreduce-Format konvertieren, so dass es von jedem bei der Verwendung eines Hadoop-Clusters wie Amazon W...
06.11.2010, 15:45
1
Antwort

Ist es möglich, Hadoop im pseudo-verteilten Betrieb ohne HDFS auszuführen?

Ich untersuche die Optionen für die Ausführung einer hadoop-Anwendung auf einem lokalen System. Wie bei vielen Anwendungen sollten die ersten Releases in der Lage sein, auf einem einzigen Knoten zu laufen, solange wir alle verfügbaren CPU-Ker...
23.08.2010, 08:59
2
Antworten

Hadoop MR Quelle: HDFS vs HBase. Vorteile von jedem?

Wenn ich das Hadoop-Ökosystem richtig verstehe, kann ich meine MapReduce-Jobs, die Daten von HDFS oder HBase beziehen, ausführen. Unter der Annahme, dass die vorherige Annahme richtig ist, warum sollte ich eine über die andere wählen? Gibt es ei...
22.09.2010, 23:06