我有一个另存为.htm网页的Microsoft Word文档。下面是我的代码。我的问题是如何从文档中获取文本,并将其附加到字符串中。我注意到该段设置为标记<p class=MsoNormal>,因此有任何建议。我想要附加到的字符串是documentText

    String documentText = "";
    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    while (dataInput.available() != 0){
        System.out.println(dataInput.readLine());
    }

最佳答案

查看诸如HTML ParserJericho HTML Parser之类的库,或使用HTMLEditorKit.Parser上建议的本机HTMLEditorKit.ParserCallback + this answer方法。

07-24 21:41