我下载了Apache HWPF。我想使用它来读取doc文件并将其文本写入纯文本文件。我不太了解HWPF。
我非常简单的程序在这里:
我现在有3个问题:
我必须在2天内完成该程序。
再次重复,请帮助我完成此操作。
非常感谢你们的帮助!!!
这是我的基本代码:
public class test {
public void m1 (){
String filesname = "Hello.doc";
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(filesname );
HWPFDocument doc = new HWPFDocument(fs);
WordExtractor we = new WordExtractor(doc);
String str = we.getText() ;
String[] paragraphs = we.getParagraphText();
Picture pic = new Picture(. . .) ;
pic.writeImageContent( . . . ) ;
PicturesTable picTable = new PicturesTable( . . . ) ;
if ( picTable.hasPicture( . . . ) ){
picTable.extractPicture(..., ...);
picTable.getAllPictures() ;
}
}
最佳答案
Apache Tika将为您完成此操作。它处理与POI对话以完成HWPF的工作,并为您提供XHTML或纯文本格式的文件内容。如果注册递归解析器,那么您还将获得所有嵌入的图像。
关于java - 如何使用Apache HWPF从DOC文件中提取文本和图像,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/637440/