Google Cloud Dataproc ist ein verwalteter Hadoop MapReduce-, Spark-, Pig- und Hive-Service auf der Google Cloud Platform. Der Dienst bietet GUI-, CLI- und HTTP-API-Zugriffsmodi zum Bereitstellen / Verwalten von Clustern und zum Übergeben von Jobs an Cluster.
Welchen Port sollte ich verwenden, um auf die Spark-Benutzeroberfläche von Google Dataproc zuzugreifen?
Ich habe versucht Port 4040 und 7077 sowie eine Reihe anderer Ports, die ich gefunden habe, mit netstat -pln
Firewall ist richtig ko...
18.10.2015, 00:35
Unser Stack besteht aus Google Data Proc (Spark 2.0) und Google BigTable (HBase 1.2.0) und ich suche nach einem Connector, der mit diesen Versionen arbeitet.
Die Spark 2.0 und die neue DataSet API-Unterstützung ist für die gefundenen Connecto...
01.12.2016, 11:00
Gemäß den Docos von Dataproc gibt es " native und automatische Integrationen mit BigQuery " .
Ich habe eine Tabelle in BigQuery. Ich möchte diese Tabelle lesen und eine Analyse mit dem Dataproc-Cluster durchführen, den ich erstellt habe (mi...
06.10.2015, 02:16
Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden.
Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt
Ссылка...
14.07.2015, 08:11
Ich verwende die "Vorschau" Google DataProc Image 1.1 mit Spark 2.0.0. Um eine meiner Operationen abzuschließen, muss ich ein kartesisches Produkt vervollständigen. Seit der Version 2.0.0 wurde ein Spark-Konfigurationsparameter erstellt (spark.s...
17.08.2016, 14:13