Wie kann ich die Installation von Hive / Pig in Amazon Data Pipeline stoppen?

Question

Wie kann ich die Installation von Hive / Pig in Amazon Data Pipeline stoppen?

8

Ich brauche weder Hive noch Pig, und die Amazon Data Pipeline installiert sie standardmäßig auf jedem EMR-Cluster, den sie hochfährt. Dies dauert länger als nötig. Irgendwelche Ideen zum Deaktivieren der Installation?

emr amazon-data-pipeline

anvitron 17.01.2014, 18:51

quelle

1 Antwort

Tags und Links emr amazon-data-pipeline

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Gem libxml-ruby (1.1.4) wird installiert, schlägt aber zur Laufzeit fehl

score 1 · Answer 1

Dies ist heute nicht möglich.

Die einzige Problemumgehung wäre, einen kleinen EMR-Cluster zu starten, den Sie zum Testen verwenden (wie bei einem einzelnen Master - m1.small). Dann benutze es mit 'workergroup' anstatt 'runsOn'.

Abhängig vom Typ der Aktivitäten, die Sie verwenden möchten, wird das Feld "workergroup" möglicherweise unterstützt. Sie können jedoch immer alles in ein Skript (Python, Shell oder Blah) einfügen und es mit ShellCommandActivity verwenden.

Update (korrekt von ChristopherB erinnert):

Ab 3.x AMI-Version wird Hive und Pig im AMI selbst gebündelt. Die Schritte ziehen also keine neuen Pakete von S3, sondern nur die Dämonen auf dem Master-Knoten. Wenn Sie sich also nicht Sorgen machen, dass Sie Ihre Ressourcen (CPU, Speicher usw.) verbrauchen, sollte es in Ordnung sein. Sie würden keine nennenswerte Zeit zum Laufen brauchen.