google-hadoop

Das Open-Source-Apache-Hadoop-Framework kann auf der Google Cloud Platform für die Verarbeitung großer Datenmengen mithilfe von Google Compute Engine-VMs und persistenten Festplatten ausgeführt werden. Optional können Google-Tools und Bibliotheken zur Integration von Hadoop in andere Cloud-Services wie Google Cloud Storage integriert werden und BigQuery.
1
Antwort

Die Google Storage-Datei kann nicht über den GSC-Connector von Spark aus verbunden werden

Ich habe auf meinem lokalen Rechner einen Funke-Job geschrieben, der die Datei aus dem Google Cloud-Speicher mit google hadoop connector wie gs: //storage.googleapis.com/ liest, wie in Ссылка Ich habe Dienstkonto mit Rechenmodul- und Sp...
25.09.2017, 14:28
1
Antwort

BigQuery-Connector für Pyspark über das Hadoop-Eingabeformatbeispiel

Ich habe einen großen Datensatz in einer BigQuery-Tabelle gespeichert und möchte ihn in einen pypark-RDD für die ETL-Datenverarbeitung laden. Ich habe festgestellt, dass BigQuery das Hadoop-Eingabe / Ausgabe-Format unterstützt Ссылка...
14.07.2015, 08:11