我已经抓取了很多信息,需要将其组织成几个领域。唯一的问题是,在用于标识它并创建模式和匹配器的信息之前没有特定的标头。我在下面提供了2组数据的信息。如图所示,标识符只是“左”或“中心”,显示它们在屏幕上的位置。通过在每个数据集中添加每个字段,将每个数据集搜索和组织为CSV的最佳方法是什么?需要保存的数据将是“ left”或“ center”之后的所有内容。
<td align="left">ERIK DAVIDOVIC, ET AL </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center">
<a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack('ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum','')" style="display:inline-block;width:100px;">CV-13-798497</a>
</td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td>
</tr><tr style="background-color:Gainsboro;">
<td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center">
<a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack('ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum','')" style="display:inline-block;width:100px;">CV-13-798498</a>
</td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td>
</tr><tr style="background-color:LightGrey;">
最佳答案
您可以使用http://jsoup.org/之类的解析器来解析html文件并使用选择器提取信息。
希望能帮助到你。