人们如何检测和自动更换失效的Swarm Manager?

考虑到以下因素,这似乎很重要:“如果集群失去了管理者的法定人数,那么集群将无法执行管理任务。”

最佳答案

您需要使用外部监视解决方案来实现。它不是docker swarm模式的内置功能。

实现此解决方案并非易事。首先,请记住,在升级节点时,您现在可以通过普通工作人员没有访问权限的群集为它提供完全的管理访问权限,因此请确保您的安全模型可以通过此更改。您还需要避免级联故障,在这种情况下,一个管理器的过载会导致它失败,而自动升级其他节点会使它们立即失败,直到没有更多的工作人员,因为现有工作负载会重新分配给越来越少的节点。最后,当您添加新的经理时,您需要考虑如何处理对当前失败的经理的引用。如果恢复,您是希望它从中断处继续运行,还是要从群集中完全删除它以减少仲裁所需的节点数。

最后要注意的一件事是,当丢失仲裁时,节点将继续运行它们已启动的容器。您唯一失去的就是管理和更改该基础结构的能力。因此,根据需要的容错级别,我见过的大多数地方都有3个或5个管理器,并且通常使管理器变为虚拟的,以便在发生故障时可以轻松地在其环境中的其他位置重新启动VM镜像。

关于docker - 如何自动更换失效的Docker Swarm Manager以至少运行x Manager?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45905801/

10-13 04:58