hdfs, Seitenzahl 3

Hadoop Distributed File System (HDFS) ist das primäre Speichersystem, das von Hadoop-Anwendungen verwendet wird. HDFS erstellt mehrere Replikate von Datenblöcken und verteilt sie auf Rechenknoten in einem Cluster, um zuverlässige, extrem schnelle Berechnungen zu ermöglichen.

Antworten

Wie aktiviert HBase den wahlfreien Zugriff auf HDFS?

Wenn HBase eine Datenbank ist, in der die Dateien in HDFS gespeichert sind, wie wird dann ein zufälliger Zugriff auf ein einzelnes Datenelement in HDFS ermöglicht? Mit welcher Methode wird dies erreicht? Aus dem Apache HBase Referenzhandbuch...

21.01.2014, 03:59

Antwort

Wo werden meine Dateien (dir) gespeichert, wenn ich den hadoop fs -mkdir benutzt habe?

Ich bin völlig neu bei hadoop und habe gerade die Installation beendet, die mich zwei Tage gekostet hat ... Ich versuche jetzt mit dem hadoop dfs Befehl, aber ich konnte es einfach nicht verstehen, obwohl ich seit Tagen surfe, konnte ich nicht d...

30.07.2012, 03:03

Antwort

BindException in Hadoop auf EC2

Ich versuche, einen Hadoop-Cluster (CDH4) auf EC2-Instanzen einzurichten. Der namenode stürzt immer ab, wenn ich versuche, ihn zu formatieren. Das ist der Fehler, den ich bekomme. %Vor% Die Hosts-Datei sieht so aus %Vor% Kann mir jemand...

12.04.2013, 06:40

Antworten

NotSerializableException mit json4s on Spark

Grundsätzlich muss ich einige komplexe JSONs auf HDFS mit Spark analysieren. Ich benutze "for comprehensions", um die JSON- und die "extract" -Methode (vor) zu filtern von json4s, um es in eine Fallklasse zu packen Das funktioniert gut!...

16.07.2014, 16:49

Antwort

elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

Ich melde wöchentlich Millionen kleiner Log-Dokumente an: Ad-hoc-Abfragen für Data Mining Verbinden, Vergleichen, Filtern und Berechnen von Werten viele viele Volltextsuche mit Python Führen Sie diese Operationen mit allen Millionen vo...

26.02.2014, 13:48

Antwort

Ist es möglich, Hadoop im pseudo-verteilten Betrieb ohne HDFS auszuführen?

Ich untersuche die Optionen für die Ausführung einer hadoop-Anwendung auf einem lokalen System. Wie bei vielen Anwendungen sollten die ersten Releases in der Lage sein, auf einem einzigen Knoten zu laufen, solange wir alle verfügbaren CPU-Ker...

23.08.2010, 08:59

Antworten

Spark scheitert bei großen Shuffle-Jobs mit java.io.IOException: Dateisystem geschlossen

Ich finde oft, dass Funken bei großen Jobs mit einer ziemlich sinnlosen Ausnahme versagen. Die Worker-Protokolle sehen normal aus, keine Fehler, aber sie erhalten den Status "KILLED". Dies ist sehr häufig bei großen Shuffles, so Operationen wie...

04.06.2014, 13:34

Antworten

Laufende Karte: Reduziert den Auftrag für bestimmte Dateien / Blöcke in HDFS

Zuallererst, ich bin neu in hadoop:) Ich habe einen großen Datensatz von gezippten Dateien (TBs von Dokumenten in gezippten Dateien in der Größe von jeweils 100-500mb). Im Grunde brauche ich eine Art Filterung meiner Eingabe für meine Map-...

21.06.2013, 10:53

Antworten

hive - Wie man eine externe Hive-Tabelle zusammen mit Daten löscht

Ich verwende %Vor% Wenn ich die Tabelle mit demselben Schema und demselben Namen neu erzeuge, bekomme ich die alten Daten zurück. Sollte ich das Tabellenverzeichnis aus dem hdfs-Dateisystem entfernen, um die Daten vollständig loszuwerden? ...

24.11.2012, 13:53

Antworten

FileInputStream für ein generisches Dateisystem

Ich habe eine Datei, die serialisierte Java-Objekte wie "Vector" enthält. Ich habe diese Datei über Hadoop Distributed File System (HDFS) gespeichert. Jetzt beabsichtige ich, diese Datei (mit der Methode readObject) in einer der Map-Tasks zu les...

15.05.2010, 11:17