HtmlTokenizer真正做什么?

它的作用是什么?

如何在C#应用程序中使用它?

最佳答案

它使用类似于XML的SAX的“侦听器”样式界面来解析html并公开标签(及其标签和它们的数据和属性)。尽管我相信有很多不同的类实现,这些类称为HTMLTokenize。

当解析器遇到某些元素时,侦听器样式输出通过在侦听器中调用方法来工作,例如,您在侦听器中可能具有startTag(...)方法,并且每当解析器遇到新标记的开始时,它将调用此方法方法,并为找到的标签传递数据。同样,当遇到标签的结尾时,它将调用一个coresponding endTag()方法。由侦听器决定跟踪解析的确切内容和位置,这就是为什么通常简单地公开DOM树的解析器更易于使用的原因。

如果您可以提供有关此类来源的特定模式,则可以在答案中提供更多详细信息。
另外,我不知道有任何具有此类的C#类库,只有Java?

10-07 19:51
查看更多