BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

9

Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden.

Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt

Ссылка

und pyspark sollten in der Lage sein, diese Schnittstelle zu verwenden, um mit der Methode "newAPIHadoopRDD" eine RDD zu erstellen.

Ссылка

Leider scheint die Dokumentation auf beiden Seiten knapp und geht über mein Wissen von Hadoop / Spark / BigQuery hinaus. Gibt es jemanden, der herausgefunden hat, wie man das macht?

    
Luca Fiaschi 14.07.2015, 08:11
quelle

1 Antwort

3

Google hat jetzt ein Beispiel zur Verwendung des BigQuery-Connectors mit Spark.

Es scheint ein Problem mit dem GsonBigQueryInputFormat zu geben, aber ich habe ein einfaches Shakespeare-Wortzählbeispiel, das funktioniert

%Vor%     
Matt J 22.10.2015 18:10
quelle