由于我们的业务需求,我们必须使用静态长时间运行的持久性 Dataproc 集群。有什么方法可以升级 Dataproc 镜像以利用最新的 OS/OSS 更新?

请帮我提供一些引用文档来执行此操作(最好是自动化)。

最佳答案

如今,Dataproc 不支持就地集群升级,这也是我们建议客户改用临时(每个作业/工作流)或短期集群(几周,而不是几年)的原因。

不幸的是,Oozie 不能很好地与云原生或混合架构配合使用。我建议将集群故障转移功能构建到您的自动化中,以便您可以经常删除/重新创建。也许作为集群启动的一部分,它可以发出一个锁定文件,以防止旧集群产生新作业?

这是可能有帮助的其他引用资料。

关于解耦计算和存储:

https://www.qubole.com/blog/advantage-decoupling/

https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips

长生命周期集群的选项:

https://cloud.google.com/blog/products/data-analytics/10-tips-for-building-long-running-clusters-using-cloud-dataproc

有关专门处理 Oozie 的一种方法,请参阅下面的第二个答案。

关于google-cloud-platform - Dataproc 集群镜像升级,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59151181/

10-16 16:44