Possible Duplicate:
Convert Word doc to HTML programmatically in Java




我有一个程序,正在使用.docx文件并将其作为.html文件打开,但是当转换为html时,我得到的只是不可读的字符串。我需要此文件的html,因为以后需要解析它。当我使用下面的方法打开文件时,得到的文本不可读,例如:úL] iN?#tBd!?^ý?e“ 0©?®??AäúsIp?¸ü?D?ÓÃ\Dâ>½? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb

    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    StringBuilder nHtmlText = new StringBuilder();
    while (dataInput.available() != 0) {
        System.out.println(dataInput.readLine());
        nHtmlText.append(dataInput.readLine());
    }
    htmlText = nHtmlText.toString();


是否有某种方法可以获取干净的可读html文件进行解析和保存?

最佳答案

没有。

您正在读取docx文件的原始内容,这不是html,而是压缩的xml-请参见here,您需要一些将docx转换为html的内容。两者有很大的不同。

10-06 09:10