我构建了一个 robots.txt 爬虫,它从机器人中提取 url,然后在页面完成后加载页面并进行一些后期处理。这一切都发生得非常快,我每秒可以从 5 页中提取信息。

如果网站没有 robots.txt,我将使用 Abot Web Crawler。问题是Abot比直接robots.txt爬虫慢得多。似乎当 Abot 访问一个包含大量链接的页面时,它会非常缓慢地安排每个链接。某些页面需要 20 多秒才能将所有页面排入队列并运行上述发布过程。

我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该一次抓取多个网站,还是有另一种更快的 Abot 解决方案?

谢谢!

最佳答案

向 Abot 添加了一个补丁来修复此类问题。应该在 nuget 版本 1.5.1.42 中可用。有关更多详细信息,请参阅 issue #134。你能验证这解决了你的问题吗?

关于c# - Abot 网络爬虫性能,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38045880/

10-11 11:46