我有一个示例表如下:
caller receiver
100 200
100 300
400 100
100 200
我需要找到每个数字的唯一连接数。
例如:100将具有200,300和400之类的连接。
我的输出应该是这样的:
100 3
200 1
300 1
400 1
我正在尝试使用 hive 。如果无法通过 hive 完成,那么可以用 pig 做
最佳答案
这样可以解决您的问题。
select q1.caller,count(distinct(q1.receiver)) from
(select caller , receiver from test_1 group by caller,receiver
union all
select receiver as caller,caller as receiver from test_1 group by receiver,caller)q1 group by q1.caller;
关于hadoop - 如何使用配置单元/ pig 找到唯一连接的数量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30745223/