我有一个另存为.htm网页的Microsoft Word文档。下面是我的代码。我的问题是如何从文档中获取文本,并将其附加到字符串中。我注意到该段设置为标记<p class=MsoNormal>
,因此有任何建议。我想要附加到的字符串是documentText
String documentText = "";
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
while (dataInput.available() != 0){
System.out.println(dataInput.readLine());
}
最佳答案
查看诸如HTML Parser和Jericho HTML Parser之类的库,或使用HTMLEditorKit.Parser上建议的本机HTMLEditorKit.ParserCallback + this answer方法。