有人说,当我们希望在纸质参考资料中进行统计时,map-reduce可能比传统方式做得更好,因为传统方式涉及大量的内存/磁盘切换。我不太了解为什么传统方式不好。

假设我仅在一台机器(没有集群)上运行map-reduce,它是否仍比传统方法更好地解决了一些问题?

或者换句话说,从算法的 Angular 来看,“map-reduce”本身的算法范式在解决问题上是否具有某些优势?

谢谢。

最佳答案

充其量,M / R允许重新应用与高级统计信息包相同的算法。但是更典型的是,在使用的算法中做出了一些牺牲-允许以分布式方式运行。就交叉折叠采样(或任何其他采样方法)提供更均匀的随机分布而言,Map / Reduce没有提供“魔术”。

对于适合内存的小型数据集,M / R通常比传统程序包差-这是由于算法在可伸缩性方面做出了妥协。当使用大型数据集而无法在一台机器上进行完全采样时,您会开始看到M / R的优势。使用R / Matlab / SAS通常需要下采样-并可能需要数量级或数量级。

关于algorithm - 为什么我们说map-reduce比传统方法更好地解决了 “Paper reference”问题?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39120590/

10-12 23:46