我有一个表,试图在其中查找标识符的出现次数
我先加载表格
a = LOAD 'table' USING org.apache.hive.hcatalog.pig.HCatLoader();
然后减少列
b = FOREACH a GENERATE col1, col2, col3, col4;
我将结果分组在col1上,因为它包含我正在查找的ID的计数
c = GROUP b BY col1;
然后计算每个分组下的元素数量
d = FOREACH c GENERATE COUNT(b), b.col1;
结果是
(1,{(111)})
(1,{(116)})
(2,{(118),(118)})
(2,{(122),(122)})
(2,{(125),(125)})
(1,{(134)})
(2,{(136),(136)})
(2,{(153),(153)})
(1,{(153)})
每行的第二个元素是ID,重复出现的次数。我如何消除这个袋子,而只剩下计数和ID元组?
最佳答案
d = FOREACH c生成计数(b),b.col1;
->
d = FOREACH c生成计数(b),组;
关于hadoop - pig 的GROUP和COUNT后减少,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/28999051/