Sollten Hadoop-Cluster auf identischer Hardware laufen?

9

Ich erinnere mich, irgendwo gelesen zu haben, dass Hadoops Leistung sich erheblich verschlechtert, wenn die Maschinen, auf denen sie laufen, sich sehr voneinander unterscheiden, aber ich finde diesen Kommentar nicht mehr. Ich erwäge, einen Hadoop-Cluster auf einem Array von VMs auszuführen, der nicht direkt von meiner Gruppe verwaltet wird, und ich muss wissen, ob dies eine Anforderung ist, die ich in meine Anfrage aufnehmen sollte.

Soll ich also darauf bestehen, dass alle meine Maschinen die gleiche Hardware haben, oder ist es in Ordnung, auf verschiedenen Rechnern in verschiedenen Hardware-Konfigurationen zu laufen?

Danke.

    
ILikeFood 25.06.2012, 17:42
quelle

2 Antworten

13

Die folgenden Artikel beschreiben, wie heterogene Cluster die Leistung von hadoop map-reduce beeinflussen:

  

In einem heterogenen Cluster können die Rechenkapazitäten von Knoten variieren   Signifikant. Ein Hochgeschwindigkeitsknoten kann die in a gespeicherten Daten verarbeiten   lokale Festplatte des Knotens schneller als Low-Speed-Gegenstücke. Nach einer   Fast Node vervollständigt die Verarbeitung seiner lokalen Eingabedaten, des Knotens   muss die Lastverteilung unterstützen, indem unverarbeitete Daten behandelt werden, die sich in einem befinden   oder mehr entfernte langsame Knoten. Wenn die Menge der übertragenen Daten aufgrund   Load-Sharing ist sehr groß, der Overhead des Verschiebens von unverarbeiteten Daten   Von langsamen Knoten zu schnellen Knoten wird ein kritisches Problem, das sich auswirkt   Hadoops Leistung.

Folgende Referenzen haben mehr Details:

  1. Ссылка
  2. Ссылка

Es bietet auch Möglichkeiten, die Leistung auf heterogenen Clustern zu verbessern oder diese Leistungseinbußen zu vermeiden.

Es wird klugerweise vorgeschlagen, dass Sie homogene Maschinen in Ihrem Cluster haben, aber wenn diese Maschinen keine stark unterschiedlichen Spezifikationen und Leistungsunterschiede aufweisen, sollten Sie mit dem Aufbau Ihres Clusters fortfahren.

Für Produktionssysteme sollten Sie homogene Maschinen vorschlagen. Für die Entwicklung ist die Leistung nicht kritisch.

Wie auch immer, Sie sollten in der Lage sein, Ihren Hadoop-Cluster zu benchmarken, nachdem Sie ihn erstellt haben.

    
pyfunc 25.06.2012, 17:57
quelle
3

Ein homogener Cluster ist sicherlich ideal, aber nicht unbedingt notwendig. Yahoo !, Inc. beispielsweise führt in ihren Produktionsumgebungen heterogene Cluster aus. Aus Gesprächen mit Forschern heraus stellen sie fest, dass es aufgrund von Planungsproblemen zu Leistungseinbußen kommt (ein großer Schlag, dass sie hart daran arbeiten, ihren Tools leistungsorientierte Zeitpläne hinzuzufügen), aber die Strafe ist nicht lähmend.

>     
s3cur3 26.06.2012 14:33
quelle

Tags und Links