google-cloud-dataproc

Google Cloud Dataproc ist ein verwalteter Hadoop MapReduce-, Spark-, Pig- und Hive-Service auf der Google Cloud Platform. Der Dienst bietet GUI-, CLI- und HTTP-API-Zugriffsmodi zum Bereitstellen / Verwalten von Clustern und zum Übergeben von Jobs an Cluster.
2
Antworten

Wo ist die Spark-Benutzeroberfläche bei Google Dataproc?

Welchen Port sollte ich verwenden, um auf die Spark-Benutzeroberfläche von Google Dataproc zuzugreifen? Ich habe versucht Port 4040 und 7077 sowie eine Reihe anderer Ports, die ich gefunden habe, mit netstat -pln Firewall ist richtig ko...
18.10.2015, 00:35
2
Antworten

Welchen HBase Connector für Spark 2.0 sollte ich verwenden?

Unser Stack besteht aus Google Data Proc (Spark 2.0) und Google BigTable (HBase 1.2.0) und ich suche nach einem Connector, der mit diesen Versionen arbeitet. Die Spark 2.0 und die neue DataSet API-Unterstützung ist für die gefundenen Connecto...
01.12.2016, 11:00
2
Antworten

Dataproc + BigQuery Beispiele - alle verfügbar?

Gemäß den Docos von Dataproc gibt es " native und automatische Integrationen mit BigQuery " . Ich habe eine Tabelle in BigQuery. Ich möchte diese Tabelle lesen und eine Analyse mit dem Dataproc-Cluster durchführen, den ich erstellt habe (mi...
06.10.2015, 02:16
1
Antwort

BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden. Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt Ссылка...
14.07.2015, 08:11
3
Antworten

spark.sql.crossJoin.enabled für Spark 2.x

Ich verwende die "Vorschau" Google DataProc Image 1.1 mit Spark 2.0.0. Um eine meiner Operationen abzuschließen, muss ich ein kartesisches Produkt vervollständigen. Seit der Version 2.0.0 wurde ein Spark-Konfigurationsparameter erstellt (spark.s...
17.08.2016, 14:13