我正在Google Cloud上创建集群,他们要求我选择要使用的计算机数量,以及每台计算机上应该有多少个内核。如果我想运行MapReduce作业,则要求8台每台1核的机器与要求2台每台4核的机器之间有实际区别吗?

最佳答案

您在标题和正文中的问题有所不同。

在4x1core和1x4core之间进行选择时,后者具有数据局部性的优势-映射器和化简器之间没有数据传输,所有数据都在同一台机器上。

要考虑的另一个重要因素是RAM的数量。如果必须在1台具有16GB RAM的计算机和8台具有2GB RAM的计算机之间进行选择,则最好选择第一种方法,因为某些算法需要在内存中加载大量内容,而RAM较小,您将无法运行它们。

最后要记住的一点是:对于群集中的所有计算机,必须具有相同的配置,否则有些计算机将更早完成并等待较慢的计算机。如果群集将增长,请立即选择最合适的配置。

长话短说:在大多数情况下,更高层的计算机性能会更好。如果可以,请选择它们。

关于hadoop - 对于MapReduce作业,使用1台具有4核的计算机与使用4台具有1核的计算机是否相同?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44334161/

10-15 21:48