我有一个示例表如下:

caller   receiver
100         200
100         300
400         100
100         200

我需要找到每个数字的唯一连接数。
例如:100将具有200,300和400之类的连接。

我的输出应该是这样的:
100      3
200      1
300      1
400      1

我正在尝试使用 hive 。如果无法通过 hive 完成,那么可以用 pig 做

最佳答案

这样可以解决您的问题。

 select q1.caller,count(distinct(q1.receiver)) from 
(select caller , receiver from test_1 group by caller,receiver
union all
select receiver as caller,caller as receiver from test_1 group by receiver,caller)q1 group by q1.caller;

关于hadoop - 如何使用配置单元/ pig 找到唯一连接的数量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30745223/

10-12 19:05