apache-spark - 如何在PySpark应用程序的Google Cloud Bigtable中读写数据？

我在Google Cloud Dataproc群集上使用Spark，我想在PySpark作业中访问Bigtable。我们是否有适用于Spark的Bigtable连接器，例如Google BigQuery连接器？

我们如何从PySpark应用程序访问Bigtable？

最佳答案

通常最好使用Apache HBase APIs从Spark访问Cloud Bigtable。

HBase当前仅提供Hadoop MapReduce I/O格式。可以使用SparkContext.newAPIHadoopRDD方法从Spark(或PySpark)访问这些文件。但是，很难将记录转换为Python中可用的东西。

HBase正在开发Spark SQL API，但尚未将它们集成到发行版本中。 Hortonworks有一个Spark HBase Connector，但是它可以针对Spark 1.6(需要Cloud Dataproc 1.0版)进行编译，而我还没有使用它，所以我无法说说它的使用有多么容易。

或者，您可以使用基于Python的Bigtable客户端，而仅使用PySpark进行并行处理。

关于apache-spark - 如何在PySpark应用程序的Google Cloud Bigtable中读写数据？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/40371827/

BigTable

apache-spark - 如何在PySpark应用程序的Google Cloud Bigtable中读写数据？