我正在尝试使用WordToHtmlConverter类转换HTML中的Word文档,但是文档尚不清楚。
WordToHtmlConverter具有一个采用org.w3c.dom.Document的构造函数,但我认为它不是word文档。
是否有人有示例程序介绍如何加载Word文档并将其转换为html。
最佳答案
现在最好的选择是查看单元测试,例如TestWordToHtmlConverter。那会告诉你如何做
不过,通常,您传入要填充的xml文档,让WordToHtmlConverter从Word文档生成HTML到其中,然后将xml文档转换为适当的输出(缩进,换行等)
您的代码将看起来像:
Document newDocument = DocumentBuilderFactory.newInstance()
.newDocumentBuilder().newDocument();
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
newDocument );
wordToHtmlConverter.processDocument( hwpfDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance()
.newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
new DOMSource( wordToHtmlConverter.getDocument() ),
new StreamResult( stringWriter ) );
String html = stringWriter.toString();