Unser Stack besteht aus Google Data Proc (Spark 2.0) und Google BigTable (HBase 1.2.0) und ich suche nach einem Connector, der mit diesen Versionen arbeitet.
Die Spark 2.0 und die neue DataSet API-Unterstützung ist für die gefundenen Connectors nicht klar:
Das Projekt ist in Scala 2.11 mit SBT geschrieben.
Danke für Ihre Hilfe
Ich glaube nicht, dass einer dieser (oder ein anderer bestehender Connector) alles tun wird, was Sie heute möchten.
Ich würde empfehlen, nur HBase MapReduce APIs mit RDD-Methoden wie newAPIHadoopRDD (oder möglicherweise der Spark-hbase-Connector?) zu verwenden. Dann wandeln Sie die RDDs manuell in DataSets um. Dieser Ansatz ist in Scala oder Java wesentlich einfacher als in Python.
Dies ist ein Bereich, an dem die HBase-Community arbeitet, um sie zu verbessern, und Google Cloud Dataproc wird diese Verbesserungen nach und nach übernehmen.
Zusätzlich zur obigen Antwort bedeutet die Verwendung von newAPIHadoopRDD
, dass Sie alle Daten von HBase erhalten und von nun an den Kernfunke. Sie würden keine HBase-spezifische API wie Filter usw. bekommen
Und die aktuelle spark-hbase, nur Momentaufnahmen sind verfügbar.
Tags und Links scala apache-spark hbase google-cloud-dataproc google-cloud-bigtable