Closed. This question is off-topic。它当前不接受答案。












想要改善这个问题吗? Update the question,所以它是用于堆栈溢出的on-topic

已关闭8年。



Improve this question




我一直在考虑禁止除Ask,Google,Microsoft和Yahoo!之外的所有爬网程序。从我的网站。

其背后的原因是,我从未见过其他任何Web爬网程序产生任何流量。

我的问题是:
  • 有没有理由吗?
  • 有人这样做吗?
  • 您注意到任何负面影响吗?

  • 更新:
    到目前为止,我一直使用黑名单方法:如果我不喜欢该搜寻器,则将其添加到禁止列表中。
    我不喜欢将其列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫。

    我不必担心真正的丑陋行为不当的爬虫,它们会被自动检测并阻止。 (而且,他们通常通常不会要求robots.txt :)

    但是,许多爬虫并没有表现出任何不当行为,它们似乎并没有为我/我的客户带来任何值(value)。
    例如,有一些爬虫为网站提供支持,声称它们将成为The Next Google;只有更好。我从未见过来自他们的流量,我非常怀疑他们会变得比上面提到的四个搜索引擎中的任何一个都要好。

    更新2:
    我已经分析了几个站点的访问量,一段时间以来,似乎对于合理的小型站点,每天有100个唯一的人类访客(=我无法识别为非人类的访客)。大约52%的流量是通过自动化流程生成的。

    60%的自动访问者未阅读robots.txt,40%(总访问量的21%)
    确实要求robots.txt。 (包括Ask,Google,Microsoft和Yahoo!)

    所以我的想法是,如果我阻止所有表现良好的爬网程序,这些爬网程序似乎对我没有任何值(value),那么我可以将带宽使用和服务器负载减少大约12%-17%。

    最佳答案

    互联网是一种发布机制。如果您想将网站列入白名单,则可以接受,但这很好。

    您想将您的网站列入白名单吗?

    请记住,表现良好的忽略了robots.txt的机器人无论如何都不会受到影响(显然),表现良好的机器人可能是有充分的理由存在的,只是对您而言这是不透明的。

    关于seo - robots.txt:禁止全部选择,但为什么不选择呢?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/487508/

    10-13 02:39