有一个网站,我想解析。来源如下
<tr> <td><a
href="http://www.z104.com/"><b>WNVZ</b></a>
- Z104</td> <td>Norfolk</td> <td>Virginia</td> <td><img
src="mp3.gif" alt="MP3" width="12"
height="12"></td> <td><a
href="http://provisioning.streamtheworld.com/pls/WNVZFM.pls">64
Kbps</a></td> <td>Top 40</td> </tr>
<tr> <td><a
href="http://www.z104.com/"><b>WNVZ</b></a>
- Z104</td> <td>Norfolk</td> <td>Virginia</td> <td><img
src="mp3.gif" alt="MP3" width="12"
height="12"></td> <td><a
href="http://provisioning.streamtheworld.com/pls/WNVZFM.pls">64
Kbps</a></td> <td>Top 40</td> </tr>
...等等
我要如何从中剪切所有数据,我想使用正则表达式,需要返回的字符串:
WNVZ-Z104#Norfolk#Virginia#http://provisioning.streamtheworld.com/pls/WNVZFM.pls#Top 40
WNVZ-Z104#Norfolk#Virginia#http://provisioning.streamtheworld.com/pls/WNVZFM.pls#Top 40
等等
所以,我想剪切所有这些,其中字符串是“ .pls”或“ .m3u”
对不起,我的英语不好。
最佳答案
用正则表达式解析HTML很困难;使用XML解析器(例如SAX)可能会更好。
关于java - Java Regex问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3919335/