elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

Question

elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

8

Ich melde wöchentlich Millionen kleiner Log-Dokumente an:

Ad-hoc-Abfragen für Data Mining
Verbinden, Vergleichen, Filtern und Berechnen von Werten
viele viele Volltextsuche mit Python
Führen Sie diese Operationen mit allen Millionen von Dokumenten aus, manchmal jeden Tag

Mein erster Gedanke war, dass alle Dokumente in HBase / HDFS abgelegt wurden und Hadoop-Jobs ausgeführt wurden, die Statistikergebnisse erzeugten.

Das Problem ist: Einige der Ergebnisse müssen nahezu Echtzeit sein.

Nach einigen Recherchen habe ich ElasticSearch entdeckt und jetzt überlege ich, alle Millionen von Dokumenten zu übertragen und DSL-Abfragen zu verwenden, um Statistikergebnisse zu generieren.

Ist das eine gute Idee? ElasticSearch scheint mit Millionen / Milliarden von Dokumenten so einfach zu handhaben.

hadoop hdfs elasticsearch bigdata hbase

user3175226 26.02.2014, 13:48

quelle

1 Antwort

Tags und Links hadoop hdfs elasticsearch bigdata hbase

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Tastatureingabe Matlab erkennen

score 9 · Accepted Answer

9

Für die Echtzeit-Suche ist Analytics Elastic Search eine gute Wahl.
Definitiv einfacher einzurichten und zu handhaben als Hadoop / HBase / HDFS.
Elastic-Search vs HBase Good Vergleich: Ссылка

Jasper 26.02.2014, 15:48

quelle