Ich habe gerade begonnen, Hadoop zu lernen und bin durch einige Seiten gegangen und habe das oft gefunden
"Hadoop ist keine Echtzeitplattform" auch in SO
Ich bin damit beschäftigt und ich kann es wirklich nicht verstehen. Kann mir irgendjemand helfen und mir das erklären?
Danke allen
Hadoop wurde ursprünglich für die Stapelverarbeitung entwickelt. Das heißt, nehmen Sie einen großen Datensatz in der Eingabe auf einmal, verarbeiten Sie ihn und schreiben Sie eine große Ausgabe. Das Konzept von MapReduce ist auf Batch und nicht auf Echtzeit ausgerichtet. Aber um ehrlich zu sein, war dies nur zu Hadoops Zeiten der Fall. Jetzt haben Sie viele Möglichkeiten, Hadoop in Echtzeit zu nutzen.
Zuerst denke ich, dass es wichtig ist zu definieren, was du mit Echtzeit meinst. Es kann sein, dass Sie an der Stream-Verarbeitung interessiert sind oder auch, dass Sie Abfragen für Ihre Daten ausführen möchten, die Ergebnisse in Echtzeit liefern.
Für die Stream-Verarbeitung in Hadoop bietet Hadoop nativ keine solchen Funktionen, aber Sie können andere Projekte problemlos in Hadoop integrieren:
Für Echtzeit-Abfragen gibt es auch mehrere Projekte, die Hadoop verwenden:
Es gibt wahrscheinlich andere Projekte, die in die Liste von "Making Hadoop Real-time" passen würden, aber das sind die bekanntesten.
Wie Sie sehen können, geht Hadoop mehr und mehr in Richtung Echtzeit, und selbst wenn es nicht dafür entwickelt wurde, haben Sie viele Möglichkeiten, es für Echtzeitzwecke zu erweitern. p>