我正在hadoop中的四节点多集群上工作。我进行了一系列实验,块大小如下,计算出的运行时间如下。

所有这些都在20GB输入文件上执行。
64MB-32分钟,
128MB-19分钟,
256MB-15分钟,
1GB-12.5分钟

我是否应该进一步发展2GB的块大小?如果在90GB的文件上执行类似的操作,还请说明最佳块大小。谢谢!

最佳答案

您应该使用2Gb进行测试并比较结果。

只有您考虑下一个:更大的块大小可最大程度地减少创建映射任务的开销,但是对于非本地任务,Hadoop需要将所有块转移到远程节点(此处为网络带宽限制),然后更大的最小块大小在此处性能更好。

在您的情况下,有4个节点(我假设通过局域网中的本地交换机或路由器连接),2Gb没问题。但是答案在错误率更高的其他环境中并不正确。

10-08 02:56