hadoop

Hadoop ist ein Apache-Open-Source-Projekt, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl anderer ergänzender Ergänzungen.
3
Antworten

Hive / HBase-Integration - Die Zookeeper-Sitzung wird sofort geschlossen

Wir haben einen 8-Knoten-Cluster mit CDH3u2, der mit Cloudera Manager konfiguriert wurde. Wir haben einen dedizierten Hauptknoten, der unsere einzige Instanz des Tierpflegers ausführt. Wenn ich die Hive konfiguriere, um den lokalen Hadoop auszuf...
03.02.2012, 21:33
2
Antworten

Vollständige Nutzung aller Kerne im pseudo-verteilten Hadoop-Modus

Ich führe eine Aufgabe im pseudo-verteilten Modus auf meinem 4-Kern-Laptop aus. Wie kann ich sicherstellen, dass alle Kerne effektiv genutzt werden? Momentan zeigt mein Job-Tracker an, dass jeweils nur ein Job ausgeführt wird. Bedeutet das, dass...
02.12.2011, 13:47
1
Antwort

elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

Ich melde wöchentlich Millionen kleiner Log-Dokumente an: Ad-hoc-Abfragen für Data Mining Verbinden, Vergleichen, Filtern und Berechnen von Werten viele viele Volltextsuche mit Python Führen Sie diese Operationen mit allen Millionen vo...
26.02.2014, 13:48
3
Antworten

Mit Mahout und Hadoop

Ich bin ein Neuling, der versucht zu verstehen, wie Mahout und Hadoop für kollaboratives Filtern verwendet werden. Ich habe Single-Node-Cassandra-Setup. Ich möchte Daten von Cassandra holen Wo finde ich klare Installationsschritte für Hadoop...
12.01.2011, 10:33
1
Antwort

Gibt es in Hive die maximale Größe des String-Datentyps?

Google eine Tonne, aber habe es nirgendwo gefunden. Oder bedeutet das, dass Hive einen beliebig großen String-Datentyp unterstützen kann, solange Cluster zulässig ist? Wenn ja, wo finde ich die größte Größe des String-Datentyps, den mein Cluster...
27.01.2016, 07:14
2
Antworten

Hadoop - Schreiben in HBase direkt vom Mapper

Ich habe einen Haddop-Job, dessen Ausgabe in HBase geschrieben werden sollte. Ich brauche keinen Reduzierer, die Art von Zeile, die ich einfügen möchte, wird im Mapper festgelegt. Wie kann ich TableOutputFormat verwenden, um dies zu erreichen...
16.06.2012, 08:17
3
Antworten

wie verhindert werden kann, dass der Hadoop-Job in einer beschädigten Eingabedatei fehlschlägt

Ich führe einen Hadoop-Job für viele Eingabedateien durch. Wenn jedoch eine der Dateien beschädigt ist, schlägt der gesamte Job fehl. Wie kann ich den Job machen, um die beschädigte Datei zu ignorieren? schreiben Sie vielleicht für mich ein Z...
17.02.2013, 10:41
4
Antworten

HBase Verbindungsausnahme

Ich versuche, HBase in einem Pseudo-Distributed-Modus auszuführen. Aber es funktioniert nicht, nachdem ich hbase-site.xml gesetzt habe. Jedes Mal, wenn ich versuche, einen Befehl in der hbase-Shell auszuführen, erhalte ich folgende Fehlermeld...
22.01.2011, 02:46
5
Antworten

Wie produziert man riesige Datenmengen?

Ich mache ein paar Tests mit Nutch und Hadoop und ich brauche eine riesige Menge an Daten. Ich möchte mit 20 GB beginnen, 100 GB, 500 GB und schließlich 1-2 TB erreichen. Das Problem ist, dass ich nicht über diese Menge an Daten verfüge, also...
29.12.2011, 12:59
1
Antwort

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism?

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism ? Ich habe versucht, beide in SparkSQL zu setzen, aber die Aufgabennummer der zweiten Stufe ist immer 200.     
16.08.2017, 02:22