python - 如何从lxml.html.html5paser元素标记中删除 namespace 值

使用时是否可能不为标签添加名称空间
来自lxml.html包的html5parser？

例：

from lxml import html
print(html.parse('http://example.com').getroot().tag)
# You will get 'html'

from lxml.html import html5parser
print(html5parser.parse('http://example.com').getroot().tag)
# You will get '{http://www.w3.org/1999/xhtml}html'

我发现最简单的解决方案是使用正则表达式删除它，但是
也许根本不包含该文本？

最佳答案

有一个特定的namespaceHTMLElements布尔标志来控制此行为：

from lxml.html import html5parser
from html5lib import HTMLParser

root = html5parser.parse('http://example.com',
                         parser=HTMLParser(namespaceHTMLElements=False))
print(root.tag)  # prints "html"