我最近开始为我的工作完成一个小型网络抓取任务,并且对robots.txt有点熟悉。

我最近在这里找到了一个带有奇怪的robots.txt文件的网站:

User-agent:*
Disallow


我对robots.txt的理解(在不同论坛上有很多示例支持)是Disallow命令必须用冒号限定,以对读取文件的爬网程序产生任何影响。因此,我认为该网页允许搜索引擎进行爬网。

另一方面,没有任何其他行的行User-agent:*用于表示该网站允许完全爬网。那么,为什么跟进Disallow才有意义呢?

总而言之,我对此事有点困惑。对于我在这方面忽略的一些提示,我将不胜感激。
该网站是:http://de.vindecoder.pl/

最佳答案

该robots.txt无效。每个记录/块至少需要一个Disallow行,并且需要使用冒号将字段名与字段值分开。

因此,从技术上讲,所有内容都可以抓取,因为如果没有robots.txt,这是默认设置。

如果站点作者添加了:,则将是相同的情况,因为空的Disallow值也意味着允许对所有内容进行爬网:

User-agent: *
Disallow:

关于python - 在带有冒号的Disallow上对robots.txt的疑问,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55031733/

10-12 16:54