我在多个本地文件夹中拥有数据,即/ usr / bigboss / data1,/ usr / bigboss / data2和更多文件夹。我想将所有这些文件夹用作MapReduce命令的输入源,并将结果存储在HDFS中。我找不到使用Hadoop Grep示例的有效命令。

最佳答案

数据将需要驻留在HDFS中,以便您使用grep示例进行处理。您可以使用-put FsShell命令将文件夹上传到HDFS:

hadoop fs -mkdir bigboss
hadoop fs -put /usr/bigboss/data* bigboss

它将在当前用户HDFS目录中创建一个文件夹,并将每个数据目录上载到该文件夹

现在您应该可以对数据运行grep示例

关于hadoop - 在hadoop mapreduce作业中使用多个本地文件夹作为源,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10613133/

10-16 21:35