尝试从该域抓取本地网站的一些网址:

https://foo.foofoo.com


但是,我无法在下面针对诸如此类的特定对象进行操作。因为小坚果会跳过它们,甚至会生成它们以便提取。但这并不能实现:

https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa


仅获取以下类似的网址(不是全部!只有少数!):

https://foo.foofoo.com/en/foofoo


这是我的regex-urlfilter文件,通过它我只能获取英文网页:

-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com


有什么好主意吗?

最佳答案

在为我的用例删除了一些无用的插件之后,一切恢复正常。这些插件是nutch-extensionpoints,解析文本和query(basic | site | url)。

关于java - 未获取螺母网址,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53372642/

10-12 03:44