我有以下robots.txt

User-agent: *
Disallow: /images/
Sitemap: http://www.example.com/sitemap.xml


和以下robotparser

def init_robot_parser(URL):
    robot_parser = robotparser.RobotFileParser()
    robot_parser.set_url(urlparse.urljoin(URL, "robots.txt"))
    robot_parser.read()

    return robot_parser


但是当我在print robot_parser之上执行return robot_parser时,我得到的只是

User-agent: *
Disallow: /images/


为什么忽略了Sitemaps行,我缺少什么了吗?

最佳答案

Sitemap是标准的扩展,robotparser不支持它。您可以在the source中看到它仅处理“用户代理”,“禁止”和“允许”。对于其当前功能(告诉您是否允许使用特定的网址),不需要了解Sitemap。

关于python - Python的robotparser忽略站点地图,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2978144/

10-11 20:30