有一个网站,我想解析。来源如下

 <tr> <td><a
 href="http://www.z104.com/"><b>WNVZ</b></a>
 - Z104</td> <td>Norfolk</td> <td>Virginia</td> <td><img
 src="mp3.gif" alt="MP3" width="12"
 height="12"></td> <td><a
 href="http://provisioning.streamtheworld.com/pls/WNVZFM.pls">64
 Kbps</a></td> <td>Top 40</td> </tr>

 <tr> <td><a
 href="http://www.z104.com/"><b>WNVZ</b></a>
 - Z104</td> <td>Norfolk</td> <td>Virginia</td> <td><img
 src="mp3.gif" alt="MP3" width="12"
 height="12"></td> <td><a
 href="http://provisioning.streamtheworld.com/pls/WNVZFM.pls">64
 Kbps</a></td> <td>Top 40</td> </tr>


...等等

我要如何从中剪切所有数据,我想使用正则表达式,需要返回的字符串:

WNVZ-Z104#Norfolk#Virginia#http://provisioning.streamtheworld.com/pls/WNVZFM.pls#Top 40

WNVZ-Z104#Norfolk#Virginia#http://provisioning.streamtheworld.com/pls/WNVZFM.pls#Top 40
等等

所以,我想剪切所有这些,其中字符串是“ .pls”或“ .m3u”

对不起,我的英语不好。

最佳答案

用正则表达式解析HTML很困难;使用XML解析器(例如SAX)可能会更好。

关于java - Java Regex问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3919335/

10-12 20:15