有谁能告诉我什么是html清理器,它是用于什么目的的?
谢谢,
大卫
最佳答案
您好,请参考本网站的答案,
htmlcleaner是开源的html
用java编写的解析器。在上找到HTML
网通常是脏的,形状不好的
不适合进一步加工。为了
任何严重的消费
文件,首先
收拾烂摊子,点菜
标签,属性和普通文本。
对于给定的HTML文档,
htmlcleaner重新排序单个
元素并生成格式良好的XML。
默认情况下,它遵循类似的规则
大多数web浏览器在
创建文档对象模型的顺序。
但是,用户可以提供自定义标记
和用于标记筛选和
平衡。
例如,考虑以下示例………,
<table id=table1 cellspacing=2px
<h1>CONTENT</h1>
<td><a href=index.html>1 -> Home Page</a>
<td><a href=intro.html>2 -> Introduction</a>
After putting it through HtmlCleaner, XML similar to the following is coming out:
<?xml version="1.0" encoding="UTF-8"?>
<html>
<head />
<body>
<h1>CONTENT</h1>
<table id="table1" cellspacing="2px">
<tbody>
<tr>
<td>
<a href="index.html">1 -> Home Page</a>
</td>
<td>
<a href="intro.html">2 -> Introduction</a>
</td>
</tr>
</tbody>
</table>
</body>
</html>
有关如何使用htmlcleaner,http://htmlcleaner.sourceforge.net/