倒排索引建立
需求分析
需求:有大量的文本(文档、网页),需要建立搜索索引
最终实现的结果就是哪个单词在哪个文章当中出现了多少次
思路分析:
首选将文档的内容全部读取出来,加上文档的名字作为key,文档的value为1,组织成这样的一种形式的数据
map端数据输出
hello-a.txt 1
tom-a.txt 1
hello-a.txt 1
jerry-a.txt 1
到reduce阶段
hello-a.txt <1,1>
reduce端数据输出
hello-a.txt 2
tom-a.txt 1
jerry-a.txt 1
详见代码