所以我还在研究这个解析器。今天我发现一个带有<st1:place w:st="on">标记的文档,Google告诉我这是一个Microsoft Office智能标记。
我想把这些东西扔掉,但我找不到它们是什么或有多少?
如果它们都遵循<...:...>模式,那么使用regex很容易删除它们。
文档没有doctype和.jsp扩展名,但所有内容都在两个<html>标记之间,而且无论beast是多么不标准,我仍然需要解析它。
好吧,这其实不是什么大问题,但它摆脱了我的格式和错误我。

最佳答案

这个regexp应该可以做到:

/<[:alnum:]+:[\s\S]*>/

它将触发任何以或者:
/<\s*[:alnum:]+:[\s\S]*>/

将允许更宽松的标记格式化程序(开口
09-11 18:46