我正在使用JavaServlet中的inputstream读取html文件。
但是原著和原著的内容格式不同
尽管在web浏览器中显示时它们是相同的。这是两个
html文件的链接
读取输出后
http://www.fileflyer.com/view/gQREGAe
原始产量
http://www.fileflyer.com/view/mWXHVAE
有没有办法在阅读时得到原始的html?为什么会这样?
我的java代码如下;
InputStreamReader isr = new InputStreamReader(inputStream);
BufferedReader br = new BufferedReader(isr);
String line = null;
while ( (line = br.readLine()) != null)
{
System.out.println(line);
}
任何帮助都将不胜感激!!
谢谢您,
拉娜。
最佳答案
不同格式的(名为extracted.html
)显然是由Microsoft Word生成的。
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
xmlns="http://www.w3.org/TR/REC-html40">
您的问题更多地出现在
InputStream
的源代码中,而不是在Java或Servlet端。他们肯定不会在没有你干预的情况下随机改变InputStream
的内容。你似乎在使用微软Word作为一个HTML编辑器,你不应该这样做,这是没有用的。而是使用基于文本的编辑器,如记事本、记事本++、Editplus等进行HTML编辑。