我正在设计一种解决方案,其中将使用Google Cloud SQL存储应用程序正常运行中的所有数据(种类为OLTP数据)。预计数据会随着时间的增长而增长到相当大的规模。数据本身本质上是关系型的,因此我们选择了Cloud SQL而不是Cloud Datastore。

此数据需要输入到Big Query中进行分析,并且需要接近实时分析(最好的情况),尽管实际上可能会有一些滞后。但是,我正在尝试设计一种解决方案,以将这种滞后最小化。

我的问题分为3部分-

  • 我应该使用Cloud SQL来存储数据,然后将其移至BigQuery还是更改基本设计本身,并一开始也使用BigQuery来存储数据? BigQuery是否适合用于常规的低延迟OLTP工作负载?(我认为不是-我的假设正确吗?)
  • 将Cloud SQL数据加载到BigQuery中并使其接近实时运行的推荐/最佳实践是什么?
  • 云数据流是一个不错的选择吗?如果我将Cloud SQL连接到Cloud DataFlow并进一步连接到BigQuery,它将起作用吗?还是有其他方法可以达到更好的效果(如问题2所述)?
  • 最佳答案

    看看WePay如何做到这一点:

  • https://wecode.wepay.com/posts/bigquery-wepay



  • 借助Airflow,他们能够每15分钟将BigQuery同步到其MySQL数据库。

    关于google-bigquery - 如何将Google Cloud SQL与Google Big Query集成,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46369952/

    10-15 09:35