IDbb5d7b0afbe40651f54120e31eb7fdd6 SI|us_us-800148_Rachel%20Maddow|http://www.msnbc.com/rachel-maddow-show TI1393717980 FC10 **UAMozilla/5.0** (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.73.11 (KHTML, like Gecko) Version/7.0.1 Safari/537.73.11
我是
Hadoop
MapReduce
的初学者,正在寻求一些指导以上是1个样本记录。我有一个包含10,000个类似记录的平面文件。如果我只想从下面的行中读取
UAMozilla
并计算其在文件中的出现次数。如何使用Java中的MapReduce
实现此目的。请帮助,因为我一直在寻找解决这一问题的好运!真诚的感谢!
最佳答案
使用hadoop示例随附的相同WordCount
程序。您的 map 不会只发射整个单词,而只会发射UAMozilla / 5.0,1。
要从日志行中单独提取UAMozilla / 5.0,只需使用正则表达式即可。