hadoop

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
4
Antworten

HDFS Verringerter Replikationsfaktor

Ich habe den Replikationsfaktor von 3 auf 1 reduziert, sehe aber keine Aktivität aus dem Namenode oder zwischen den Daten, um übermäßig replizierte HDFS-Dateiblöcke zu entfernen. Gibt es eine Möglichkeit, den Replikationsauftrag zu überwachen od...
23.07.2013, 00:18
1
Antwort

Hive erzwingt Schema während der Lesezeit?

Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, auf die ich in einem Vortrag stieß: %Vor% und %Vor%     
01.08.2012, 17:13
2
Antworten

Hive: SELECT AS und GROUP BY

Ich habe eine Hive-Abfrage wie %Vor% Die obige Abfrage schlägt mit einem Fehler fehl    FAILED: Fehler in der semantischen Analyse: Zeile 1: 175 Ungültiger Tabellenalias oder Spaltenreferenz secondMod 'LoggerTable' ist eine Hive-Tabel...
26.09.2012, 10:50
1
Antwort

Max / Min für ganze Datensätze in PIG

Ich habe eine Reihe von Datensätzen, die ich aus einer Datei lade, und das erste, was ich tun muss, ist die Max und Min einer Spalte. In SQL würde ich dies mit einer Unterabfrage wie folgt tun: %Vor% Ich nehme an, es muss einen einfachen Weg...
07.03.2011, 18:17
5
Antworten

Anzahl der Reduzierungen für 1 Aufgabe in MapReduce

Wie viele Reduzierer werden in einem typischen MapReduce-Setup (wie Hadoop) für eine Aufgabe verwendet, z. B. Wörter zählen? Mein Verständnis dieses MapReduce von Google bedeutet, dass nur 1 Reducer beteiligt ist. Ist das richtig? Zum Beispie...
02.06.2011, 16:26
1
Antwort

CAP mit verteiltem System

Wenn wir über das verteilte Datenbanksystem nosql sprechen, wissen wir, dass alle unter die zwei von drei CAP-Theoramen fallen. Für einen verteilten Cluster, bei dem ein Netzwerkausfall und ein Knotenausfall unvermeidbar sind, ist eine Partition...
12.11.2013, 07:21
1
Antwort

pom.xml für Hadoop 2.6.0

Ich versuche eine App zu implementieren = & gt; Finden Sie die maximale Temperatur aus Wetterdaten (zB aus Tom Whites Buch Hadoop: Definitive Guide (3. Ausgabe)) mit Hadoop. Ich habe Hadoop 2.6.0 heruntergeladen und installiert Ich benutze Maven...
09.12.2014, 16:14
2
Antworten

Wie Java Hadoop Mapper mehrere Werte senden kann

Mein Mapper muss die folgenden Tupel senden: %Vor% Und ich möchte an den Reducer die custID als Schlüssel senden, und als Wert die prodID und rate zusammen, wie sie für die reduce Phase benötigt werden. Was ist der beste Weg, dies zu tun?...
31.03.2013, 20:25
2
Antworten

Sollten Hadoop-Cluster auf identischer Hardware laufen?

Ich erinnere mich, irgendwo gelesen zu haben, dass Hadoops Leistung sich erheblich verschlechtert, wenn die Maschinen, auf denen sie laufen, sich sehr voneinander unterscheiden, aber ich finde diesen Kommentar nicht mehr. Ich erwäge, einen Hadoo...
25.06.2012, 17:42
2
Antworten

Unterschied zwischen PIG local und mapreduce mode

Was ist der Unterschied zwischen PIG-Scripts lokal und auf mapreduce?  Ich verstehe mapreduce Modus, wenn Sie es auf einem Cluster ausführen, auf dem hdfs installiert ist. Bedeutet dies, dass der lokale Modus kein HDFS benötigt und somit auch Ma...
26.07.2012, 12:33