我正在尝试使用WordToHtmlConverter类转换HTML中的Word文档,但是文档尚不清楚。

WordToHtmlConverter具有一个采用org.w3c.dom.Document的构造函数,但我认为它不是word文档。

是否有人有示例程序介绍如何加载Word文档并将其转换为html。

最佳答案

现在最好的选择是查看单元测试,例如TestWordToHtmlConverter。那会告诉你如何做

不过,通常,您传入要填充的xml文档,让WordToHtmlConverter从Word文档生成HTML到其中,然后将xml文档转换为适当的输出(缩进,换行等)

您的代码将看起来像:

    Document newDocument = DocumentBuilderFactory.newInstance()
            .newDocumentBuilder().newDocument();
    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
            newDocument );

    wordToHtmlConverter.processDocument( hwpfDocument );

    StringWriter stringWriter = new StringWriter();
    Transformer transformer = TransformerFactory.newInstance()
            .newTransformer();
    transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
    transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
    transformer.setOutputProperty( OutputKeys.METHOD, "html" );
    transformer.transform(
            new DOMSource( wordToHtmlConverter.getDocument() ),
            new StreamResult( stringWriter ) );

    String html = stringWriter.toString();

10-06 08:34