Ich melde wöchentlich Millionen kleiner Log-Dokumente an:
Mein erster Gedanke war, dass alle Dokumente in HBase / HDFS abgelegt wurden und Hadoop-Jobs ausgeführt wurden, die Statistikergebnisse erzeugten.
Das Problem ist: Einige der Ergebnisse müssen nahezu Echtzeit sein.
Nach einigen Recherchen habe ich ElasticSearch entdeckt und jetzt überlege ich, alle Millionen von Dokumenten zu übertragen und DSL-Abfragen zu verwenden, um Statistikergebnisse zu generieren.
Ist das eine gute Idee? ElasticSearch scheint mit Millionen / Milliarden von Dokumenten so einfach zu handhaben.
Tags und Links hadoop hdfs elasticsearch bigdata hbase