我在文件中有两个数据集,其中包含以下数据(每个文件中约500毫米行):

Dataset1:
a1
a2
a3
a4

Dataset2:
a1
a2

我想在Dataset1中找到不存在于Dataset2中的元素
因此,结果应为:
Dataset3
a3
a4

使用Hadoop的最佳方法是什么?任何与Join相关的机制,还是Pig,还是其他?谢谢。

最佳答案

您可以使用HIVE轻松地做到这一点。
1. Create a table
2. Load data
3.查询,简单的LEFT JOIN:

SELECT Dataset1.a LEFT JOIN Dataset1.a=Dataset2.a WHERE Dataset2.a IS NULL

做完了! GL!

09-26 15:24