Possible Duplicate:
Convert Word doc to HTML programmatically in Java
我有一个程序,正在使用.docx文件并将其作为.html文件打开,但是当转换为html时,我得到的只是不可读的字符串。我需要此文件的html,因为以后需要解析它。当我使用下面的方法打开文件时,得到的文本不可读,例如:úL] iN?#tBd!?^ý?e“ 0©?®??AäúsIp?¸ü?D?ÓÃ\Dâ>½? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
StringBuilder nHtmlText = new StringBuilder();
while (dataInput.available() != 0) {
System.out.println(dataInput.readLine());
nHtmlText.append(dataInput.readLine());
}
htmlText = nHtmlText.toString();
是否有某种方法可以获取干净的可读html文件进行解析和保存?
最佳答案
没有。
您正在读取docx文件的原始内容,这不是html,而是压缩的xml-请参见here,您需要一些将docx转换为html的内容。两者有很大的不同。