根据数据管道文档,EMRActivity Step命令使用与常规EMR作业不同的格式。
这是一个简化的示例:
/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer.
假设我需要从多个存储桶中提取数据,如何将这些多个输入传递给单个步骤命令?
在常规的EMR作业设置中,我只是用逗号分隔输入路径,但这似乎不适用于EmrActivity。
我对EmrActivity的解决方案非常感兴趣,而不是设置“复制 Activity ”以将我的数据带到一个临时的唯一位置。
谢谢。
最佳答案
验证json需要使用转义。如果使用CLI中的json,请尝试“\”。 (\,)将在控制台上运行。
关于hadoop - EmrActivity的多个输入,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20110379/