倒排索引建立

需求分析

需求:有大量的文本(文档、网页),需要建立搜索索引

最终实现的结果就是哪个单词在哪个文章当中出现了多少次

思路分析:

首选将文档的内容全部读取出来,加上文档的名字作为key,文档的value为1,组织成这样的一种形式的数据

map端数据输出

hello-a.txt 1
tom-a.txt 1
hello-a.txt 1
jerry-a.txt 1

到reduce阶段
hello-a.txt <1,1>

reduce端数据输出

hello-a.txt 2

tom-a.txt 1

jerry-a.txt 1

详见代码

05-28 18:34