我有2个以制表符分隔的数据集存储在AWS S3中。
我正在尝试编写一个EMR作业,该作业将基于一个公共(public)键(一组字段值)将这两个数据集连接起来。
我当前的版本填充2个列表,并逐行进行比较;输出具有公共(public)键的行。
我一直在用python编写程序,但似乎无法弄清楚通过stdin带来2个文件并相互比较每一行以便将两个数据集连接起来的背后逻辑。
我发现的大多数文档都使用Java。
我正在使用Amazon的EMR来运行我的所有作业。
任何帮助是极大的赞赏。
谢谢
最佳答案
当您已经在使用EMR时,您是否看过Hive?
http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956
关于join - 使用EMR进行数据集联接,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16405101/