我下载了Apache HWPF。我想使用它来读取doc文件并将其文本写入纯文本文件。我不太了解HWPF。

我非常简单的程序在这里:

我现在有3个问题:

  • 一些软件包有错误(它们找不到apache hdf)。我该如何解决?
  • 如何使用HWDF的方法查找并提取图像?
  • 我的程序有些不完整且不正确。所以请帮我完成它。

  • 我必须在2天内完成该程序。

    再次重复,请帮助我完成此操作。

    非常感谢你们的帮助!!!

    这是我的基本代码:
    public class test {
      public void m1 (){
        String filesname = "Hello.doc";
        POIFSFileSystem fs = null;
        fs = new POIFSFileSystem(new FileInputStream(filesname );
        HWPFDocument doc = new HWPFDocument(fs);
        WordExtractor we = new WordExtractor(doc);
        String str = we.getText() ;
        String[] paragraphs = we.getParagraphText();
        Picture pic = new Picture(. . .) ;
        pic.writeImageContent( . . . ) ;
        PicturesTable picTable = new PicturesTable( . . . ) ;
        if ( picTable.hasPicture( . . . ) ){
          picTable.extractPicture(..., ...);
          picTable.getAllPictures() ;
        }
    }
    

    最佳答案

    Apache Tika将为您完成此操作。它处理与POI对话以完成HWPF的工作,并为您提供XHTML或纯文本格式的文件内容。如果注册递归解析器,那么您还将获得所有嵌入的图像。

    关于java - 如何使用Apache HWPF从DOC文件中提取文本和图像,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/637440/

    10-11 00:28