我有以下robots.txt
User-agent: *
Disallow: /images/
Sitemap: http://www.example.com/sitemap.xml
和以下robotparser
def init_robot_parser(URL):
robot_parser = robotparser.RobotFileParser()
robot_parser.set_url(urlparse.urljoin(URL, "robots.txt"))
robot_parser.read()
return robot_parser
但是当我在
print robot_parser
之上执行return robot_parser
时,我得到的只是User-agent: *
Disallow: /images/
为什么忽略了Sitemaps行,我缺少什么了吗?
最佳答案
Sitemap是标准的扩展,robotparser不支持它。您可以在the source中看到它仅处理“用户代理”,“禁止”和“允许”。对于其当前功能(告诉您是否允许使用特定的网址),不需要了解Sitemap。
关于python - Python的robotparser忽略站点地图,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2978144/