我在文件中有两个数据集,其中包含以下数据(每个文件中约500毫米行):
Dataset1:
a1
a2
a3
a4
Dataset2:
a1
a2
我想在Dataset1中找到不存在于Dataset2中的元素
因此,结果应为:
Dataset3
a3
a4
使用Hadoop的最佳方法是什么?任何与Join相关的机制,还是Pig,还是其他?谢谢。
最佳答案
您可以使用HIVE轻松地做到这一点。
1. Create a table
2. Load data
3.查询,简单的LEFT JOIN:
SELECT Dataset1.a LEFT JOIN Dataset1.a=Dataset2.a WHERE Dataset2.a IS NULL
做完了! GL!