是否有简单的方法或示例将Google Cloud Storage数据加载到bigtable

我有很多由pyspark生成的json文件,我希望将数据加载到bigtable中。

但是我找不到简单的方法!

我已经尝试过google-cloud-python中的python代码,并且可以正常工作,但是它只是将数据逐行读取到bigtable中,这对我来说很奇怪。

任何帮助将不胜感激。

最佳答案

在Cloud Bigtable中没有简单的工具可以读取数据。以下是一些选项:


使用Dataflow导入文件。这需要Java开发,并需要学习Dataflow编程模型。
使用Python(可能与Pyspark一起)读取这些json文件,并使用称为mutate_rows的方法将其写入Cloud Bigtable,该方法批量写入Bigtable。


仅供参考,我在Cloud Bigtable团队工作。我是Java开发人员,因此我选择了#1。我们的团队一直在努力改善我们的python体验。扩展的团队最近增加了一些可靠性改进,以确保mutate_rows对大型作业具有弹性。我们尚无与PySpark或Apache Beam's python SDK集成的良好示例,但它们正在我们的视野中。

关于python - 将Google Cloud Storage数据加载到bigtable中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47345794/

10-15 11:50