Wie wird TensorFlow in einem AWS-Cluster ausgeführt?

8

Ich versuche, verteilten Tensorflow auf einem EMR / EC2-Cluster auszuführen, aber ich weiß nicht, wie Sie verschiedene Instanzen im Cluster angeben, um Teile des Codes auszuführen.

In der Dokumentation haben sie tf.device("/gpu:0") verwendet, um eine GPU anzugeben. Aber was, wenn ich eine Master-CPU und 5 verschiedene Slave-GPU-Instanzen in einem EMR-Cluster habe und diese GPUs angeben möchte, um Code auszuführen? Ich kann tf.device() nicht mit den öffentlichen DNS-Namen der Instanzen eingeben, da ein Fehler ausgegeben wird, der besagt, dass der Name nicht aufgelöst werden kann.

    
charmander 13.07.2016, 21:44
quelle

1 Antwort

0

Seit Ihrer Frage hat AWS einen Code veröffentlicht, der die Verwendung von verteiltem TensorFlow auf einem EC2-Cluster erleichtert.

Sehen Sie sich dieses github-Repository an. Alles ist in der README.md beschrieben, aber die Kurzgeschichte ist, dass es einen AWS-Stack mit

erstellen wird
  • Sicherheitsgruppen
  • Elastisches Dateisystem
  • EC2-Instanzen mit dem AWS-Deeplearning-AMI und dem darauf installierten EFS,
  • Die EC2-Instanzen werden so konfiguriert, dass Sie auf einfache Weise einen verteilten Tensorflow-Lauf ausführen können, indem Sie einen Befehl auf dem Master-Knoten ausführen (siehe Abschnitt Distributed Training auf TensorFlow ausführen).
npf 07.07.2017 20:36
quelle