Pydoop auf Amazon EMR

8

Wie würde ich Pydoop auf Amazon EMR verwenden?

Ich habe versucht, dieses Thema vergeblich zu googlen: Ist das überhaupt möglich?

    
jldupont 24.05.2012, 02:22
quelle

2 Antworten

8

Ich habe endlich funktioniert. Alles passiert auf dem Master-Knoten ... ssh zu diesem Knoten als der Benutzer hadoop

Sie benötigen einige Pakete:

%Vor%

Um Sachen zu bauen:

%Vor%

Speichern Sie die beiden Tarballs und in Zukunft können Sie den Build-Teil überspringen und einfach die folgenden Schritte zur Installation ausführen (Sie müssen herausfinden, wie Sie dies tun, indem Sie eine Bootrap-Option für die Installation auf Multi-Node-Clustern verwenden).

%Vor%

Ich war dann in der Lage, das Beispielprogramm mit der vollwertigen Hadoop-API auszuführen (nachdem ein Fehler im Konstruktor behoben wurde, so dass% code% aufgerufen wird).

%Vor%

Ich habe dieses Programm in einen Bucket hochgeladen und es "run" genannt. Ich habe dann die folgende conf.xml verwendet:

%Vor%

Schließlich habe ich die folgende Befehlszeile verwendet:

%Vor%     
Nathan Binkert 04.06.2012 22:15
quelle
2

Die gegebene Antwort ist nur teilweise richtig, aber die Lösung ist einfacher, als es so zu machen:

Kopieren Sie diesen Code in eine Bash-Datei, die Sie auf Ihrem Computer erstellen:

bootstrap.sh:

%Vor%

Nachdem Sie diese Datei fertig geschrieben haben, laden Sie sie in einen s3-Bucket hoch.

Dann kannst du in der emr Bootstrap Aktion hinzufügen:
Wählen Sie "Benutzerdefinierte Aktion" Geben Sie einen Pfad zu Ihrem s3-Bucket. Und das, Sie haben eine Pydoop in Ihrem emr-Cluster installiert.

    
ohad edelstain 10.06.2015 05:43
quelle