2009年9月28日,Apache POI project发布了3.5版,该版本正式支持Office 2007中引入的OOXML格式,例如DOCX和XLSX。

请提供一个代码示例,以纯文本格式提取DOCX文件的内容,而忽略任何样式或格式。

我之所以这样问,是因为我找不到涵盖新的OOXML支持的任何Apache POI示例。

最佳答案

这对我有用。确保添加所需的jar(升级xmlbeans等)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

关于docx - 如何使用Apache POI 3.5中新的OOXML支持从DOCX文件中提取纯文本?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1492738/

10-13 01:49