我有一个表,试图在其中查找标识符的出现次数

我先加载表格

a = LOAD 'table' USING org.apache.hive.hcatalog.pig.HCatLoader();

然后减少列
b = FOREACH a GENERATE col1, col2, col3, col4;

我将结果分组在col1上,因为它包含我正在查找的ID的计数
c = GROUP b BY col1;

然后计算每个分组下的元素数量
d = FOREACH c GENERATE COUNT(b), b.col1;

结果是
(1,{(111)})
(1,{(116)})
(2,{(118),(118)})
(2,{(122),(122)})
(2,{(125),(125)})
(1,{(134)})
(2,{(136),(136)})
(2,{(153),(153)})
(1,{(153)})

每行的第二个元素是ID,重复出现的次数。我如何消除这个袋子,而只剩下计数和ID元组?

最佳答案

d = FOREACH c生成计数(b),b.col1;

->

d = FOREACH c生成计数(b),组;

关于hadoop - pig 的GROUP和COUNT后减少,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/28999051/

10-16 10:06