我目前在AWS S3上有一个存储桶,为简单起见,我们将其称为“bucketX”。在BucketX中,有4个文件夹:
数据,docs1,docs2,docs3。
我想使用docs1,docs2和docs3作为输入目录以及一些其他输出目录,在除“数据”之外的所有目录上运行HDFS mapreduce作业。
我对如何在驱动程序中进行配置感到有些困惑。
我知道
FileInputFormat.addInputPath(job, new Path(args[0]));
存在,但是如何具体手动配置要使用的3个输入路径?任何帮助将不胜感激。
最佳答案
您可以使用通配符-
FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));