Dataproc führt Spark oberhalb von YARN aus, damit Sie die typischen "Spark Standalone" -Ports nicht finden; Wenn Sie einen Spark-Job ausführen, können Sie stattdessen den Port 8088
aufrufen, der Ihnen die Hauptseite des YARN ResourceManagers anzeigt. Auf alle laufenden Spark-Jobs kann über den Link Application Master
auf dieser Seite zugegriffen werden. Die Spark Application Master-Seite sieht genauso aus wie die vertraute Spark-Standalone-Zielseite, die Sie normalerweise an Port 8080 für Standard-Spark-Setups finden würden.
Da Mitarbeiter über das interne Netzwerk einchecken, verwenden die Links von YARN clusterinterne Hostnamen (die Hostnamen sollten Ihren Dataproc-Clusternamen als Präfix enthalten). Dies bedeutet jedoch, dass Sie, wenn Sie vom externen Netzwerk aus auf die Links zugreifen kann anfangs nicht funktionieren; Sie müssen den Hostnamen durch die externe IP-Adresse ersetzen, wenn Sie den Firewall-basierten Ansatz verwenden.
Eine einfachere Erfahrung wird darin bestehen, den SOCKS-Proxy-Ansatz zu verwenden, wie er hier erläutert wird: Ссылка
Wenn Sie in diesem Fall einfach gcloud compute ssh
verwenden, um einen schlanken lokalen SOCKS-Proxy auszuführen, und dann einen Browser öffnen, der auf diesen verweist, können Sie wie gewohnt auf alle YARN-Links klicken.
Wenn den Anweisungen in Dennis 'Antwort folgt , ich habe festgestellt, dass ich keine Verbindung zu den Ports 8080 oder 8088 für Dataproc Image v1.0 herstellen konnte.
Die offenen Ports auf dem Master-Knoten haben vorgeschlagen, 18080 zu verwenden, was ich nach der Dokumentation getan habe port 18080 und voilá: Zugang zu webui.
Tags und Links apache-spark google-cloud-dataproc