我想允许对以下文件进行爬网:
/directory/
但不抓取以下文件:
/directory/subdirectory/
是正确的robots.txt指令:
User-agent: *
Disallow: /subdirectory/
恐怕如果我不允许/ directory / subdirectory /
我将不允许对不想在/ directory /中的所有文件进行爬网,所以我在使用时正确吗:
User-agent: *
Disallow: /subdirectory/
最佳答案
您想得太多了:
User-agent: *
Disallow: /directory/subdirectory/
是正确的。
关于robots.txt - Robots.txt:禁止子目录但允许目录,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5385599/