我正在使用minidom解析xml文件,它引发了一个错误,指示数据格式不正确。我发现某些页面上的字符如ไà¸à¹€à¸Ÿà¸¥ &
,导致解析器出现打ser。在开始解析文件之前,是否有一种清除文件的简单方法?现在,我正在使用正则表达式来丢弃不是字母数字字符和</>
字符的任何内容,但是它不能正常工作。
最佳答案
尝试
xmltext = re.sub(u"[^\x20-\x7f]+",u"",xmltext)
它将清除除0x20-0x7F范围以外的所有内容。
如果要保留制表符,换行符之类的控制字符,则可以从\ x01开始。
xmltext = re.sub(u"[^\x01-\x7f]+",u"",xmltext)