我该如何抵抗不良的身份不明的漫游器来爬网我的网站?一些名称不存在于Apache cPanel中的不良bot严重访问了我的网站带宽。
我曾在batgap.com/robots.txt上尝试过robots.txt,并使用.htaccess进行了阻止,但带宽使用率没有任何改善。我不知道这些漫游器的IP,因此无法通过IP地址阻止它们。这些机器人占用了太多的站点带宽,因此,我需要从服务器上增加它。
最佳答案
我来自Incapsula,我们会定期与不良的机器人打交道。
我们最近发布了与机器人相关的研究,该研究提供了有关问题范围(http://www.incapsula.com/the-incapsula-blog/item/225-what-google-doesnt-show-you-31-of-website-traffic-can-harm-your-business)的见解,并且鉴于这些数据,我必须同意@Leonard Challis的观点-您根本无法手动处理机器人保护。
话虽这么说,但有一些机器人保护解决方案,甚至包括免费的(包括我们在内的)机器人解决方案都可以帮助您解决不良的机器人。
顺便说一句-正如您提到的那样,不良的bot访问的副产品是带宽损失。
我们最近意识到,与机器人相关的巨大带宽使用确实是多么令人惊讶。
这本身就是一个有趣的话题。
我们认为,通过避免不良的漫游器流量,托管服务提供商实际上可以极大地提高其效率(希望使用它来降低成本或改善服务)。一旦您想到了这种对社会和企业的影响,您就可以了解这个严重的机器人问题的真正范围,这一问题超出了立即造成的损害。
关于search-engine - 如何阻止不良身份不明的漫游器爬网我的网站?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9942276/