Wie kann ich die Installation von Hive / Pig in Amazon Data Pipeline stoppen?

8

Ich brauche weder Hive noch Pig, und die Amazon Data Pipeline installiert sie standardmäßig auf jedem EMR-Cluster, den sie hochfährt. Dies dauert länger als nötig. Irgendwelche Ideen zum Deaktivieren der Installation?

    
anvitron 17.01.2014, 18:51
quelle

1 Antwort

1

Dies ist heute nicht möglich.

Die einzige Problemumgehung wäre, einen kleinen EMR-Cluster zu starten, den Sie zum Testen verwenden (wie bei einem einzelnen Master - m1.small). Dann benutze es mit 'workergroup' anstatt 'runsOn'.

Abhängig vom Typ der Aktivitäten, die Sie verwenden möchten, wird das Feld "workergroup" möglicherweise unterstützt. Sie können jedoch immer alles in ein Skript (Python, Shell oder Blah) einfügen und es mit ShellCommandActivity verwenden.

Update (korrekt von ChristopherB erinnert):

Ab 3.x AMI-Version wird Hive und Pig im AMI selbst gebündelt. Die Schritte ziehen also keine neuen Pakete von S3, sondern nur die Dämonen auf dem Master-Knoten. Wenn Sie sich also nicht Sorgen machen, dass Sie Ihre Ressourcen (CPU, Speicher usw.) verbrauchen, sollte es in Ordnung sein. Sie würden keine nennenswerte Zeit zum Laufen brauchen.

    
panther 16.02.2015 18:52
quelle

Tags und Links