java - 网络爬虫性能

我很想知道在一般情况下（自制的业余Web爬虫）的性能如何。更具体地说，搜寻器可以处理多少页。

当我说自制软件时，所有含义都包括2.4Ghz核心2处理器，java编写的，50mbit的互联网速度等。

您在这方面分享的任何资源将不胜感激

非常感谢，

卡洛斯

最佳答案

首先，计算机的速度不会成为限制因素。至于连接，您应该人为地限制搜寻器的速度-如果您开始使用它们，大多数网站都会禁止您的IP地址。换句话说，请不要对网站进行太快的爬网（对于99.99％的网站，每个请求10秒钟以上都可以，但如果低于此速度，后果自负）。

因此，尽管您可以在多个线程中爬网一个站点，但我建议每个线程在一个不同的站点爬网（检查它是否也不是共享的IP地址）；这样，您就可以使连接饱和，而被蜘蛛站点禁止的可能性更低。

有些网站不希望您爬网该网站的某些部分，因此应遵循一种常用的机制：robots.txt文件。阅读链接的站点并实施它。

另请注意，某些站点完全禁止任何自动爬网；根据网站的管辖权（您可能也适用），违反此规定可能是非法的（您应对脚本的行为负责，“机器人做到了”甚至不是借口，更不用说辩护了）。

关于java - 网络爬虫性能，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/3701313/