不基于http,
像http://localhost:81等等,
但是直接爬取本地文件系统上的某个目录,
有什么出路吗?
最佳答案
来自 Nutch Wiki:
如何索引我的本地文件系统?
http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6
1) crawl-urlfilter.txt 需要更改以允许 file: URLs 而不是遵循 http: 的,否则它不会索引任何内容,或者它会从您的磁盘跳到网站上。
改变这一行:
-^(file|ftp|mailto|https):
to this:
-^(http|ftp|mailto|https):
2) crawl-urlfilter.txt 底部可能有规则拒绝某些 URL。如果它有这个片段,它可能没问题:
# accept anything else +.*
3)我更改了我的 nutch.xml 以包含以下内容:
<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>
关于filesystems - 如何制作nutch crawl文件系统?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/941519/