我在hdfs中有两个文件,它们包含如下文件File1:

id,name,age
1,x1,15
2,x2,14
3,x3,16

文件2:
id,name,grades
1,x1,A
2,x2,B
4,y1,A
5,y2,C

我想产生以下输出:
id,name,age,grades
1,x1,15,A
2,x2,14,B
3,x3,16,
4,y1,,A
5,y2,,C

我正在使用Apache Pig执行操作,是否可以在Pig中获得以上输出。这是一种联合和联合。

最佳答案

因为您可以进行工会和加入 pig ,这当然是可能的。

在不深入研究确切语法的情况下,我可以告诉您这应该起作用(过去使用过类似的解决方案)。

  • 假设我们有A和B。
  • 以A和B的前两列为A2和B2
  • 将A2和B2联合成M2
  • 不同的M2

  • 现在您有了“索引”矩阵,我们只需要添加额外的列即可。
  • 左加入A和B的M2
  • 生成相关列

  • 而已!

    关于hadoop - 联盟与加入apache pig 的结合,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39221873/

    10-12 00:36
    查看更多