我需要的是一种使用html5lib解析器生成真正的xml.etree.ElementTree的方法。 (出于可移植性原因,不能选择lxml。)ELementTree.parse
can take a parser作为可选参数
xml.etree.ElementTree.parse(source, parser=None)
但目前尚不清楚这种解析器的外观。我可以在
parser
参数中使用HTML5中的类或对象吗?有关此问题的两个库的文档都很薄。内容:
我有一个格式错误的XHTML文件,无法使用
ElementTree.parse
进行解析:<?xml version="1.0" ?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>Title</title></head>
<body><div class="cls">Note that this br<br>is missing a closing slash</div></body>
</html>
所以我用
html5lib.parse
代替了默认的treebuilder="etree"
参数,效果很好。但是html5lib显然不会输出
xml.etree.ElementTree
对象,只有一个具有几乎相同的API的对象。这有两个问题:html5lib的
find
不支持namespaces
parameter,使得XPath过于冗长而没有笨拙的wrapper function。Eclipse调试器不支持html5lib etree的追溯。
因此,我不能单独使用ElementTree或html5lib。
最佳答案
给定xml.etree.ElementTree
为etree
(通常以as形式导入):
返回的不是etree.ElementTree
,而是etree.Element
(这与etree.fromstring
返回的内容相同;只有etree.parse
返回etree.ElementTree
)。它确实是etree模块的一部分-它没有类似的API。您遇到的问题与html5lib一样适用于etree.fromstring
。
Python documentation for xml.etree.ElementTree
没有提及namespaces
参数-它似乎是ElementTree
对象(但不是Element
对象)的未记录功能。因此,它可能并不是真正应该依赖的东西!您最好的选择可能是使用包装器功能。
Eclipse无法通过树的事实归结为html5lib存在时默认为xml.etree.cElementTree
的事实-根据模块的文档,这是相同的,但是使用CPython的API在C中实现,从而停止了Eclipse的调试器运作。您可以使用以下非加速版本获取treebuilder(Python 3.3中的注释均是C实现-cElementTree
仅作为不赞成使用的别名而保留)使用以下方法:
import xml.etree.ElementTree as etree
import html5lib
tb = html5lib.getTreeBuilder("etree", implementation=etree)
p = html5lib.HTMLParser(tb)
tree = p.parse("<html>")