我是hadoop和behemoth的新手,我按照https://github.com/DigitalPebble/behemoth/wiki/tutorial上的教程使用以下命令为文本文档生成了一个庞然大物语料库:
sudo bin / hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i / home / madhumita / Documents / testFile -o / home / madhumita / behemoth / testGateOpCorpus
我收到错误消息:
错误util.CorpusGenerator:输入不存在:/ home / madhumita / Documents / testFile
每次我运行命令时,尽管我已经用gedit检查了路径是否正确。我在网上搜索了任何类似的问题,但找不到任何问题。
关于它为什么会发生的任何想法?如果.txt文件格式 Not Acceptable ,则需要什么文件格式?
最佳答案
好吧,我设法解决了这个问题。所需的输入路径是hadoop分布式文件系统上文件的路径,而不是本地计算机上的文件。
因此,首先我将本地文件复制到HDFS上的/data/test.txt,并将此路径作为输入参数。命令如下:
sudo bin/hadoop fs -copyFromLocal /home/madhumita/Documents/testFile/test.txt /docs/test.txt
sudo bin/hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /docs/test.txt -o /docs/behemoth/test
这样就解决了问题。感谢所有试图解决问题的人。
关于hadoop - 生成Behemoth语料库时出错,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15470103/