我想允许对以下文件进行爬网:

/directory/


但不抓取以下文件:

/directory/subdirectory/


是正确的robots.txt指令:

User-agent: *
Disallow: /subdirectory/


恐怕如果我不允许/ directory / subdirectory /
我将不允许对不想在/ directory /中的所有文件进行爬网,所以我在使用时正确吗:

User-agent: *
Disallow: /subdirectory/

最佳答案

您想得太多了:

User-agent: *
Disallow: /directory/subdirectory/


是正确的。

关于robots.txt - Robots.txt:禁止子目录但允许目录,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5385599/

10-11 17:32