我目前在AWS S3上有一个存储桶,为简单起见,我们将其称为“bucketX”。在BucketX中,有4个文件夹:

数据,docs1,docs2,docs3。

我想使用docs1,docs2和docs3作为输入目录以及一些其他输出目录,在除“数据”之外的所有目录上运行HDFS mapreduce作业。

我对如何在驱动程序中进行配置感到有些困惑。

我知道

 FileInputFormat.addInputPath(job, new Path(args[0]));

存在,但是如何具体手动配置要使用的3个输入路径?任何帮助将不胜感激。

最佳答案

您可以使用通配符-

FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));

08-07 11:22