我最近开始为我的工作完成一个小型网络抓取任务,并且对robots.txt
有点熟悉。
我最近在这里找到了一个带有奇怪的robots.txt文件的网站:
User-agent:*
Disallow
我对
robots.txt
的理解(在不同论坛上有很多示例支持)是Disallow
命令必须用冒号限定,以对读取文件的爬网程序产生任何影响。因此,我认为该网页允许搜索引擎进行爬网。另一方面,没有任何其他行的行
User-agent:*
用于表示该网站允许完全爬网。那么,为什么跟进Disallow
才有意义呢?总而言之,我对此事有点困惑。对于我在这方面忽略的一些提示,我将不胜感激。
该网站是:http://de.vindecoder.pl/
最佳答案
该robots.txt无效。每个记录/块至少需要一个Disallow
行,并且需要使用冒号将字段名与字段值分开。
因此,从技术上讲,所有内容都可以抓取,因为如果没有robots.txt,这是默认设置。
如果站点作者添加了:
,则将是相同的情况,因为空的Disallow
值也意味着允许对所有内容进行爬网:
User-agent: *
Disallow:
关于python - 在带有冒号的Disallow上对robots.txt的疑问,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55031733/