我有html文件:
<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;">
<div>Test message.</div>
<div> </div>
<div>More content here...</div>
<div> </div>
<div>Best regards,</div>
<div>Mr. Crowley</div></div></body></html>
我尝试使用Apache Tika获取以上文件的内容...
final InputStream input = new FileInputStream("file.html");
final ContentHandler handler = new BodyContentHandler();
final Metadata metadata = new Metadata();
final HtmlParser htmlParser = new HtmlParser();
htmlParser.parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
System.out.println(plainText);
...而且一切都很好,除了额外的换行符:
Test message.
More content here...
Best regards,
Mr. Crowley
<and 3 empty lines here>
是否可以避免这种行为?是否有可能获得更多预期结果:
Test message.
More content here...
Best regards,
Mr. Crowley
?
像这样的代码构造
plainText = plainText.replaceAll("(\n)+", "\n");
不幸的是在这里对我来说是不可能的。另外,我无法更改HTML文件的结构。
最佳答案
一种解决方案是实现自定义ContentHandler,它不会编写这些新行(仍然保留原始文档中的新行):
public class OriginalBodyContentHandler extends BodyContentHandler {
@Override
public void ignorableWhitespace(char[] ch, int start, int length)
throws SAXException {
// Not writing extra new lines generated by XHTMLContentHandler.
}
}
关于java - Apache Tika : remove extra line breaks in result string,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/17475613/