Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden.
Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt
und pyspark sollten in der Lage sein, diese Schnittstelle zu verwenden, um mit der Methode "newAPIHadoopRDD" eine RDD zu erstellen.
Leider scheint die Dokumentation auf beiden Seiten knapp und geht über mein Wissen von Hadoop / Spark / BigQuery hinaus. Gibt es jemanden, der herausgefunden hat, wie man das macht?
Tags und Links apache-spark pyspark google-bigquery google-hadoop google-cloud-dataproc