我总结:minidom似乎不喜欢8859个命名实体;什么是合适的解决方案?
下面的代码说明了我的情况:

sample = """
  <html>
    <body>
      <h1>Un ejemplo</h1>
      <p>Me llamo Juan Fulano y Hern&aacute;ndez.</p>
    </body>
  </html>
"""
sample2 = sample.replace("&aacute;", "&#225;")

import xml.dom.minidom

dom2 = xml.dom.minidom.parseString(sample2)
dom = xml.dom.minidom.parseString(sample)

简而言之:当HTML包含“A”和类似的、表示为命名实体时,minidom会抱怨
... xml.parsers.expat.ExpatError: undefined entity ...

?是吗
用相应的文本常量替换命名实体?
使用minidom以外的解析器?哪个?
不知怎的(有编码任务?)让minidom相信这些命名实体很酷?

最佳答案

xml.dom.minidom是XML解析器,而不是HTML解析器。。
尝试BeautifulSoup

09-26 19:36