Ich analysiere Zugriffsprotokolle, die von Apache, Nginx, Darwin (Video-Streaming-Server) generiert wurden, und aggregiere Statistiken für jede gelieferte Datei nach Datum / Referrer / Useragent.
Jede Stunde werden Tonnen von Protokollen generiert, und diese Zahl wird wahrscheinlich in naher Zukunft dramatisch ansteigen. Die Verarbeitung dieser Art von Daten über Amazon Elastic MapReduce klingt also vernünftig.
Im Moment bin ich bereit, mit Mappern und Reducern meine Daten zu verarbeiten und den gesamten Prozess mit dem folgenden Ablauf zu testen:
Ich habe das manuell nach Tausenden von Tutorials getan, die im Internet über Amazon ERM abrufbar sind.
Was soll ich als nächstes tun? Was ist der beste Ansatz, um diesen Prozess zu automatisieren?
Was sind gängige Praktiken für:
Sicher hängt in den meisten Fällen von Ihrer Infrastruktur und Anwendungsarchitektur ab.
Sicher Ich kann das alles mit meiner benutzerdefinierten Lösung implementieren und möglicherweise eine Menge Dinge, die bereits von anderen genutzt werden, wieder investieren.
Aber sollte eine Art gängige Praxis sein, mit der ich gerne vertraut werden würde.
Ich denke, dass dieses Thema für viele Leute nützlich sein kann, die versuchen, Zugriffsprotokolle mit Amazon Elastic MapReduce zu verarbeiten, konnte aber keine guten Materialien über Best Practices finden, um damit umzugehen.
UPD: Nur um hier zu klären, ist die einzige letzte Frage:
Was sind Best Practices für die Verarbeitung von Protokollen, die von Amazon Elastic MapReduce unterstützt werden?
Verwandte Beiträge:
Das ist eine sehr weit offene Frage, aber hier sind einige Gedanken, die Sie in Betracht ziehen könnten:
Hoffe, das gibt dir ein paar Hinweise.
Tags und Links hadoop logging amazon-s3 elastic-map-reduce hadoop-streaming