Zunächst bin ich relativ neu in Big Data und der Hadoop-Welt und habe gerade angefangen, ein wenig mit der Hortonworks Sandbox (Pig and Hive) zu experimentieren.
Ich habe mich gefragt, in welchen Fällen ich die oben genannten Werkzeuge von Hadoop, Hive, Pig, HBase und Cassandra verwenden könnte?
In meiner Sandbox-Umgebung mit einer Datei von nur 9 MB hatten Hive und Pig Antwortzeiten von Sekunden bis Minuten. Dies ist offensichtlich nicht in einigen Situationen zum Beispiel Web-Anwendungen (es sei denn, es ist etwas anderes wie meine virtuelle Maschine Setup).
Meine Vermutungen über die richtige Verwendung sind:
Außerdem, wann HBase im Gegensatz zu wann Cassandra zu verwenden?
Danke!
Ihre Vermutungen sind etwas genau.
Mit Hadoop, ich denke, Sie beziehen sich auf MapReduce? Hadoop als solches ist ein Ökosystem, das aus vielen Komponenten besteht (einschließlich MapReduce, HDFS, Pig und Hive).
MapReduce ist gut, wenn Sie die Logik zum Verarbeiten von Daten auf der Methodenebene Map () und Reduce () schreiben müssen. In meinen Arbeiten finde ich MapReduce sehr nützlich, wenn es sich um unstrukturierte Daten handelt. muss gereinigt werden.
Hive, Pig: Sie eignen sich für Stapelprozesse, die regelmäßig ausgeführt werden (etwa in Stunden oder Tagen).
HBase & amp; Cassandra: Unterstützt Anrufe mit niedriger Latenz. Sie können also für Echtzeitanwendungen verwendet werden, bei denen die Reaktionszeit entscheidend ist. Werfen Sie einen Blick auf diese Diskussion , um eine bessere Vorstellung von HBase vs Cassandra.
Tags und Links hadoop cassandra apache-pig hive