我搜索了HTML解析器,并想到了tidy
事实是,既然我已经安装了它,我就找不到如何剥离所有HTML标记(如果可能的话,还有javascript函数)。
该示例代码将html转换为XHTML,我开始感觉到我下载了不合适的软件包,也找不到任何解释它的文档/手册。

关于如何整洁地做任何建议?

编辑:
据我了解,整洁的是HTML解析器,我想要实现的是仅保留简单的测试,即:<h3>Test</h3>将进入Test

最佳答案

整洁基本上是用于清理HTML页面。您可以将Tidy的输出发送到libxml ++以解析生成的XHTML。

有关使用libxml ++的工作示例,请查看此链接
Parsing a XHTML using libxml++您可以使用3个解析器之一来解析字符串,并仅获取不带任何标签的文本。

关于html - 如何整洁地删除所有HTML标签,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27280218/

10-11 21:02