elasticsearch vs HBase / Hadoop für Echtzeitstatistiken

8

Ich melde wöchentlich Millionen kleiner Log-Dokumente an:

  • Ad-hoc-Abfragen für Data Mining
  • Verbinden, Vergleichen, Filtern und Berechnen von Werten
  • viele viele Volltextsuche mit Python
  • Führen Sie diese Operationen mit allen Millionen von Dokumenten aus, manchmal jeden Tag

Mein erster Gedanke war, dass alle Dokumente in HBase / HDFS abgelegt wurden und Hadoop-Jobs ausgeführt wurden, die Statistikergebnisse erzeugten.

Das Problem ist: Einige der Ergebnisse müssen nahezu Echtzeit sein.

Nach einigen Recherchen habe ich ElasticSearch entdeckt und jetzt überlege ich, alle Millionen von Dokumenten zu übertragen und DSL-Abfragen zu verwenden, um Statistikergebnisse zu generieren.

Ist das eine gute Idee? ElasticSearch scheint mit Millionen / Milliarden von Dokumenten so einfach zu handhaben.

    
user3175226 26.02.2014, 13:48
quelle

1 Antwort

9
  • Für die Echtzeit-Suche ist Analytics Elastic Search eine gute Wahl.
  • Definitiv einfacher einzurichten und zu handhaben als Hadoop / HBase / HDFS.
  • Elastic-Search vs HBase Good Vergleich: Ссылка
Jasper 26.02.2014, 15:48
quelle