我有两个文件。我想按顺序合并它。如何使用Pig / PigLatin脚本执行此操作?
f1.csv
1,aa
1,aa
1,ab
1,ac
2,bd
2,bd
2,bd
4,ab
4,bc
f2.csv
1,xxx
1,xxy
1,xyx
1,yxx
1,xyy
1,yyx
2,pqr
2,pq
2,pqrs
2,pqs
3,def
我需要的输出是
1,aa,1,xxy
1,aa,1,xyx
1,ab,1,yxx
1,ac,1,xyy
2,bd,2,pqr
2,bd,2,pq
2,bd,2,pqrs
谁能帮助我使用哪个连接以及如何获得此连接?
最佳答案
1)载入每个文件。
2)然后将它们联合在一起
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#UNION
3)存储新的联合别名。
附言您可以设置DEFAULT_PARALLEL 1;确保只输出一个文件。
关于hadoop - 如何使用PIG脚本合并两个文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13984693/