有谁能告诉我什么是html清理器,它是用于什么目的的?
谢谢,
大卫

最佳答案

您好,请参考本网站的答案,
htmlcleaner是开源的html
用java编写的解析器。在上找到HTML
网通常是脏的,形状不好的
不适合进一步加工。为了
任何严重的消费
文件,首先
收拾烂摊子,点菜
标签,属性和普通文本。
对于给定的HTML文档,
htmlcleaner重新排序单个
元素并生成格式良好的XML。
默认情况下,它遵循类似的规则
大多数web浏览器在
创建文档对象模型的顺序。
但是,用户可以提供自定义标记
和用于标记筛选和
平衡。
例如,考虑以下示例………,

<table id=table1 cellspacing=2px
    <h1>CONTENT</h1>
    <td><a href=index.html>1 -> Home Page</a>
    <td><a href=intro.html>2 -> Introduction</a>


    After putting it through HtmlCleaner, XML similar to the following is coming out:
    <?xml version="1.0" encoding="UTF-8"?>
    <html>
       <head />
       <body>
          <h1>CONTENT</h1>
          <table id="table1" cellspacing="2px">
             <tbody>
                <tr>
                   <td>
                      <a href="index.html">1 -&gt; Home Page</a>
                   </td>
                   <td>
                      <a href="intro.html">2 -&gt; Introduction</a>
                   </td>
                </tr>
             </tbody>
          </table>
       </body>
    </html>

有关如何使用htmlcleaner,http://htmlcleaner.sourceforge.net/

10-08 18:07