我正在使用JavaServlet中的inputstream读取html文件。
但是原著和原著的内容格式不同
尽管在web浏览器中显示时它们是相同的。这是两个
html文件的链接
读取输出后
http://www.fileflyer.com/view/gQREGAe
原始产量
http://www.fileflyer.com/view/mWXHVAE
有没有办法在阅读时得到原始的html?为什么会这样?
我的java代码如下;

InputStreamReader isr = new InputStreamReader(inputStream);
     BufferedReader br = new BufferedReader(isr);
     String line = null;
     while ( (line = br.readLine()) != null)
     {
      System.out.println(line);
}

任何帮助都将不胜感激!!
谢谢您,
拉娜。

最佳答案

不同格式的(名为extracted.html)显然是由Microsoft Word生成的。

<html xmlns:v="urn:schemas-microsoft-com:vml"
      xmlns:o="urn:schemas-microsoft-com:office:office"
      xmlns:w="urn:schemas-microsoft-com:office:word"
      xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
      xmlns="http://www.w3.org/TR/REC-html40">

您的问题更多地出现在InputStream的源代码中,而不是在Java或Servlet端。他们肯定不会在没有你干预的情况下随机改变InputStream的内容。
你似乎在使用微软Word作为一个HTML编辑器,你不应该这样做,这是没有用的。而是使用基于文本的编辑器,如记事本、记事本++、Editplus等进行HTML编辑。

10-05 20:40
查看更多