Ich habe endlich funktioniert. Alles passiert auf dem Master-Knoten ... ssh zu diesem Knoten als der Benutzer hadoop
Sie benötigen einige Pakete:
%Vor%Um Sachen zu bauen:
%Vor%Speichern Sie die beiden Tarballs und in Zukunft können Sie den Build-Teil überspringen und einfach die folgenden Schritte zur Installation ausführen (Sie müssen herausfinden, wie Sie dies tun, indem Sie eine Bootrap-Option für die Installation auf Multi-Node-Clustern verwenden).
%Vor%Ich war dann in der Lage, das Beispielprogramm mit der vollwertigen Hadoop-API auszuführen (nachdem ein Fehler im Konstruktor behoben wurde, so dass% code% aufgerufen wird).
%Vor%Ich habe dieses Programm in einen Bucket hochgeladen und es "run" genannt. Ich habe dann die folgende conf.xml verwendet:
%Vor%Schließlich habe ich die folgende Befehlszeile verwendet:
%Vor%Die gegebene Antwort ist nur teilweise richtig, aber die Lösung ist einfacher, als es so zu machen:
Kopieren Sie diesen Code in eine Bash-Datei, die Sie auf Ihrem Computer erstellen:
Nachdem Sie diese Datei fertig geschrieben haben, laden Sie sie in einen s3-Bucket hoch.
Dann kannst du in der emr Bootstrap Aktion hinzufügen:
Wählen Sie "Benutzerdefinierte Aktion"
Geben Sie einen Pfad zu Ihrem s3-Bucket.
Und das, Sie haben eine Pydoop in Ihrem emr-Cluster installiert.
Tags und Links python hadoop amazon-web-services emr