BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

Question

BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

9

Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden.

Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt

Ссылка

und pyspark sollten in der Lage sein, diese Schnittstelle zu verwenden, um mit der Methode "newAPIHadoopRDD" eine RDD zu erstellen.

Ссылка

Leider scheint die Dokumentation auf beiden Seiten knapp und geht über mein Wissen von Hadoop / Spark / BigQuery hinaus. Gibt es jemanden, der herausgefunden hat, wie man das macht?

apache-spark pyspark google-bigquery google-hadoop google-cloud-dataproc

Luca Fiaschi 14.07.2015, 08:11

quelle

1 Antwort

Tags und Links apache-spark pyspark google-bigquery google-hadoop google-cloud-dataproc

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Die kontinuierliche Xcode 6-Integration kann das Bereitstellungsprofil nicht finden

score 3 · Answer 1

3

Google hat jetzt ein Beispiel zur Verwendung des BigQuery-Connectors mit Spark.

Es scheint ein Problem mit dem GsonBigQueryInputFormat zu geben, aber ich habe ein einfaches Shakespeare-Wortzählbeispiel, das funktioniert

%Vor%

Matt J 22.10.2015 18:10

quelle