有点随机,我想玩一些NLP东西,我想:
从HTML获取将在浏览器中显示给用户的所有文本。
我的理想输出中没有任何标签,并且只包含句号(以及使用的任何其他标点符号)和换行符,尽管我可以忍受相当合理的失败次数(其他最终出现在输出中的东西)。
如果在内容可能无法继续播放的情况下可以插入换行符或句号,则将被视为额外的奖励。例如:
ul或option标记中的项目可以用句号分隔(或者说实话只是被忽略了)。
我正在使用Java,但是有兴趣查看执行此操作的任何代码。
我可以(如果需要的话)想出办法做到这一点,只是想知道是否已经有类似的东西了,因为这可能比我下午想出的要好;-)。
如果最终要这样做,我可能会编写的代码示例将是使用SAX解析器在p标签中查找内容,去除任何跨度或强等标签,并在遇到div或没有一个句号的另一个p。
任何指针或建议都非常欢迎。
最佳答案
嗯...几乎所有HTML解析器都可以用来创建所需的效果-只需遍历所有标签并仅发出文本元素,并为每个块元素的结束标签发出LF。如您所说,SAX实现将是简单而直接的。