Hadoop中的分布式缓存是什么?
这个怎么运作?

Could some one give me inline description of it with real time example?

最佳答案

分布式缓存可以包含初始化所需的小数据文件或可能需要在集群中所有节点上访问的代码库。
举例来说,您必须计算大量文件中没有单词出现。
并且您已经指示您必须在给定的文件(ignore.csv,这也是大文件)中对除这些单词以外的所有单词进行计数。

然后,您读取此ignore.csv在分布式缓存中是您的映射器或化简器的设置功能,具体取决于您的逻辑并将其存储在可轻松访问每个单词的数据结构中(例如HashMap)。

该文件将在任何机器的mapper和reducer启动之前读取并存储,并且该分布式缓存对于群集中运行的所有机器都是相同的。

希望您现在明白了。如果有任何疑问,请发表评论。

关于hadoop - Hadoop中的分布式缓存,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/25052516/

10-11 03:18