Ich versuche, verteilten Tensorflow auf einem EMR / EC2-Cluster auszuführen, aber ich weiß nicht, wie Sie verschiedene Instanzen im Cluster angeben, um Teile des Codes auszuführen.
In der Dokumentation haben sie tf.device("/gpu:0")
verwendet, um eine GPU anzugeben. Aber was, wenn ich eine Master-CPU und 5 verschiedene Slave-GPU-Instanzen in einem EMR-Cluster habe und diese GPUs angeben möchte, um Code auszuführen? Ich kann tf.device()
nicht mit den öffentlichen DNS-Namen der Instanzen eingeben, da ein Fehler ausgegeben wird, der besagt, dass der Name nicht aufgelöst werden kann.
Seit Ihrer Frage hat AWS einen Code veröffentlicht, der die Verwendung von verteiltem TensorFlow auf einem EC2-Cluster erleichtert.
Sehen Sie sich dieses github-Repository an. Alles ist in der README.md beschrieben, aber die Kurzgeschichte ist, dass es einen AWS-Stack mit
erstellen wirdTags und Links python amazon-web-services tensorflow amazon-ec2