我在Google Cloud Dataproc群集上使用Spark,我想在PySpark作业中访问Bigtable。我们是否有适用于Spark的Bigtable连接器,例如Google BigQuery连接器?

我们如何从PySpark应用程序访问Bigtable?

最佳答案

通常最好使用Apache HBase APIs从Spark访问Cloud Bigtable。

HBase当前仅提供Hadoop MapReduce I/O格式。可以使用SparkContext.newAPIHadoopRDD方法从Spark(或PySpark)访问这些文件。但是,很难将记录转换为Python中可用的东西。

HBase正在开发Spark SQL API,但尚未将它们集成到发行版本中。 Hortonworks有一个Spark HBase Connector,但是它可以针对Spark 1.6(需要Cloud Dataproc 1.0版)进行编译,而我还没有使用它,所以我无法说说它的使用有多么容易。

或者,您可以使用基于Python的Bigtable客户端,而仅使用PySpark进行并行处理。

关于apache-spark - 如何在PySpark应用程序的Google Cloud Bigtable中读写数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40371827/

10-12 22:57