Dataproc + BigQuery Beispiele - alle verfügbar?

8

Gemäß den Docos von Dataproc gibt es " native und automatische Integrationen mit BigQuery " .

Ich habe eine Tabelle in BigQuery. Ich möchte diese Tabelle lesen und eine Analyse mit dem Dataproc-Cluster durchführen, den ich erstellt habe (mit einem PySpark-Job). Schreiben Sie dann die Ergebnisse dieser Analyse zurück in BigQuery. Du fragst dich vielleicht, warum du die Analyse nicht direkt in BigQuery durchführst !? Der Grund dafür ist, dass wir komplexe statistische Modelle erstellen und SQL zu hoch ist, um sie zu entwickeln. Wir brauchen etwas wie Python oder R, ergo Dataproc.

Sind irgendwelche Dataproc + BigQuery-Beispiele verfügbar? Ich kann keine finden.

    
Graham Polley 06.10.2015, 02:16
quelle

2 Antworten

6

Um zu beginnen, wie in diese Frage erwähnt, ist der BigQuery-Connector auf Cloud Dataproc Cluster.

Hier finden Sie ein Beispiel zum Lesen von Daten aus BigQuery in Spark. In diesem Beispiel lesen wir Daten aus BigQuery, um eine Wortzahl zu ermitteln. Sie lesen Daten aus BigQuery in Spark mit SparkContext.newAPIHadoopRDD . Die Spark-Dokumentation enthält weitere Informationen zur Verwendung von SparkContext.newAPIHadoopRDD . "

%Vor%

Sie müssen dieses Beispiel mit Ihren Einstellungen anpassen, einschließlich Ihrer Cloud Platform-Projekt-ID in <your-project-id> und Ihrer Ausgabetabellen-ID in <your-fully-qualified-table-id> .

Wenn Sie schließlich den BigQuery-Connector mit MapReduce verwenden, enthält diese Seite Beispiele wie man MapReduce-Jobs mit dem BigQuery-Connector schreibt.

    
James 09.10.2015, 18:59
quelle
0

Das obige Beispiel zeigt nicht, wie Daten in eine Ausgabetabelle geschrieben werden. Sie müssen dies tun:

%Vor%

wobei der Schlüssel: String tatsächlich ignoriert wird

    
lukeforehand 02.11.2015 17:51
quelle