Pydoop auf Amazon EMR

Question

Pydoop auf Amazon EMR

8

Wie würde ich Pydoop auf Amazon EMR verwenden?

Ich habe versucht, dieses Thema vergeblich zu googlen: Ist das überhaupt möglich?

python hadoop amazon-web-services emr

jldupont 24.05.2012, 02:22

quelle

2 Antworten

Tags und Links python hadoop amazon-web-services emr

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Wo sollte Daten sortiert werden? Server oder Client?

score 8 · Answer 1

Ich habe endlich funktioniert. Alles passiert auf dem Master-Knoten ... ssh zu diesem Knoten als der Benutzer hadoop

Sie benötigen einige Pakete:

%Vor%

Um Sachen zu bauen:

%Vor%

Speichern Sie die beiden Tarballs und in Zukunft können Sie den Build-Teil überspringen und einfach die folgenden Schritte zur Installation ausführen (Sie müssen herausfinden, wie Sie dies tun, indem Sie eine Bootrap-Option für die Installation auf Multi-Node-Clustern verwenden).

%Vor%

Ich war dann in der Lage, das Beispielprogramm mit der vollwertigen Hadoop-API auszuführen (nachdem ein Fehler im Konstruktor behoben wurde, so dass% code% aufgerufen wird).

%Vor%

Ich habe dieses Programm in einen Bucket hochgeladen und es "run" genannt. Ich habe dann die folgende conf.xml verwendet:

%Vor%

Schließlich habe ich die folgende Befehlszeile verwendet:

%Vor%

score 2 · Answer 2

Die gegebene Antwort ist nur teilweise richtig, aber die Lösung ist einfacher, als es so zu machen:

Kopieren Sie diesen Code in eine Bash-Datei, die Sie auf Ihrem Computer erstellen:

bootstrap.sh:

%Vor%

Nachdem Sie diese Datei fertig geschrieben haben, laden Sie sie in einen s3-Bucket hoch.

Dann kannst du in der emr Bootstrap Aktion hinzufügen:
Wählen Sie "Benutzerdefinierte Aktion" Geben Sie einen Pfad zu Ihrem s3-Bucket. Und das, Sie haben eine Pydoop in Ihrem emr-Cluster installiert.