我很想知道在一般情况下(自制的业余Web爬虫)的性能如何。更具体地说,搜寻器可以处理多少页。

当我说自制软件时,所有含义都包括2.4Ghz核心2处理器,java编写的,50mbit的互联网速度等。

您在这方面分享的任何资源将不胜感激

非常感谢,

卡洛斯

最佳答案

首先,计算机的速度不会成为限制因素。至于连接,您应该人为地限制搜寻器的速度-如果您开始使用它们,大多数网站都会禁止您的IP地址。换句话说,请不要对网站进行太快的爬网(对于99.99%的网站,每个请求10秒钟以上都可以,但如果低于此速度,后果自负)。

因此,尽管您可以在多个线程中爬网一个站点,但我建议每个线程在一个不同的站点爬网(检查它是否也不是共享的IP地址);这样,您就可以使连接饱和,而被蜘蛛站点禁止的可能性更低。

有些网站不希望您爬网该网站的某些部分,因此应遵循一种常用的机制:robots.txt文件。阅读链接的站点并实施它。

另请注意,某些站点完全禁止任何自动爬网;根据网站的管辖权(您可能也适用),违反此规定可能是非法的(您应对脚本的行为负责,“机器人做到了”甚至不是借口,更不用说辩护了)。

关于java - 网络爬虫性能,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3701313/

10-12 13:35