Select a.drr1,b.drr1 from a left join b on a.drr1=b.drr1

在此,表a具有重复的drr1值,而表b具有唯一的drr1值。 hive 中的多对一连接。

由于表a非常大且重复值很多,因此花费的时间太长。
关于如何在 hive 中解决此问题的任何指示。

最佳答案

做类似的事情

SELECT DISTINCT * FROM A LEFT JOIN B ON A.drr1=B.drr1;

09-26 20:38