</div><div class="tr">
  </div><div class="bl">
  </div><div class="br">
  </div>  <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
          </div><div class="meta">
<h3 class="action">
<span>
    <a href="/abc">ABC</a>
  </span> a picture
</h3>


我使用以下命令将网站的HTML源代码保存到String中:

  public static BufferedReader read(String url) throws Exception
  {
    return new BufferedReader(
        new InputStreamReader(
            new URL(url).openStream()));
  }


在这段代码中,我想将所有图像URL保存在一个新的带\ n的字符串中,该字符串带有/ medium /或在OR中,以简化所有带有\ n的字符串中的图像链接。
这个过程应该如何?提前致谢

最佳答案

与其尝试自己解析HTML内容,不如使用JSoup获取图像标签,并执行简单的String.contains获取所需的图像标签。

Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
    String imageSrc = e.attr("src");
    if (imageSrc.contains("/medium/")) {
     ...
    }
}


也是avoid using regex to parse HTML

10-07 19:11
查看更多