</div><div class="tr">
</div><div class="bl">
</div><div class="br">
</div> <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
</div><div class="meta">
<h3 class="action">
<span>
<a href="/abc">ABC</a>
</span> a picture
</h3>
我使用以下命令将网站的HTML源代码保存到String中:
public static BufferedReader read(String url) throws Exception
{
return new BufferedReader(
new InputStreamReader(
new URL(url).openStream()));
}
在这段代码中,我想将所有图像URL保存在一个新的带\ n的字符串中,该字符串带有/ medium /或在OR中,以简化所有带有\ n的字符串中的图像链接。
这个过程应该如何?提前致谢
最佳答案
与其尝试自己解析HTML内容,不如使用JSoup获取图像标签,并执行简单的String.contains
获取所需的图像标签。
Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
String imageSrc = e.attr("src");
if (imageSrc.contains("/medium/")) {
...
}
}
也是avoid using regex to parse HTML。