Ich erinnere mich, irgendwo gelesen zu haben, dass Hadoops Leistung sich erheblich verschlechtert, wenn die Maschinen, auf denen sie laufen, sich sehr voneinander unterscheiden, aber ich finde diesen Kommentar nicht mehr. Ich erwäge, einen Hadoop-Cluster auf einem Array von VMs auszuführen, der nicht direkt von meiner Gruppe verwaltet wird, und ich muss wissen, ob dies eine Anforderung ist, die ich in meine Anfrage aufnehmen sollte.
Soll ich also darauf bestehen, dass alle meine Maschinen die gleiche Hardware haben, oder ist es in Ordnung, auf verschiedenen Rechnern in verschiedenen Hardware-Konfigurationen zu laufen?
Danke.
Die folgenden Artikel beschreiben, wie heterogene Cluster die Leistung von hadoop map-reduce beeinflussen:
In einem heterogenen Cluster können die Rechenkapazitäten von Knoten variieren Signifikant. Ein Hochgeschwindigkeitsknoten kann die in a gespeicherten Daten verarbeiten lokale Festplatte des Knotens schneller als Low-Speed-Gegenstücke. Nach einer Fast Node vervollständigt die Verarbeitung seiner lokalen Eingabedaten, des Knotens muss die Lastverteilung unterstützen, indem unverarbeitete Daten behandelt werden, die sich in einem befinden oder mehr entfernte langsame Knoten. Wenn die Menge der übertragenen Daten aufgrund Load-Sharing ist sehr groß, der Overhead des Verschiebens von unverarbeiteten Daten Von langsamen Knoten zu schnellen Knoten wird ein kritisches Problem, das sich auswirkt Hadoops Leistung.
Folgende Referenzen haben mehr Details:
Es bietet auch Möglichkeiten, die Leistung auf heterogenen Clustern zu verbessern oder diese Leistungseinbußen zu vermeiden.
Es wird klugerweise vorgeschlagen, dass Sie homogene Maschinen in Ihrem Cluster haben, aber wenn diese Maschinen keine stark unterschiedlichen Spezifikationen und Leistungsunterschiede aufweisen, sollten Sie mit dem Aufbau Ihres Clusters fortfahren.
Für Produktionssysteme sollten Sie homogene Maschinen vorschlagen. Für die Entwicklung ist die Leistung nicht kritisch.
Wie auch immer, Sie sollten in der Lage sein, Ihren Hadoop-Cluster zu benchmarken, nachdem Sie ihn erstellt haben.
Ein homogener Cluster ist sicherlich ideal, aber nicht unbedingt notwendig. Yahoo !, Inc. beispielsweise führt in ihren Produktionsumgebungen heterogene Cluster aus. Aus Gesprächen mit Forschern heraus stellen sie fest, dass es aufgrund von Planungsproblemen zu Leistungseinbußen kommt (ein großer Schlag, dass sie hart daran arbeiten, ihren Tools leistungsorientierte Zeitpläne hinzuzufügen), aber die Strafe ist nicht lähmend.
>Tags und Links hadoop