我已经抓取了很多信息,需要将其组织成几个领域。唯一的问题是,在用于标识它并创建模式和匹配器的信息之前没有特定的标头。我在下面提供了2组数据的信息。如图所示,标识符只是“左”或“中心”,显示它们在屏幕上的位置。通过在每个数据集中添加每个字段,将每个数据集搜索和组织为CSV的最佳方法是什么?需要保存的数据将是“ left”或“ center”之后的所有内容。

<td align="left">ERIK DAVIDOVIC, ET AL  </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798497</a>
                    </td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:Gainsboro;">


            <td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL  </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798498</a>
                    </td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:LightGrey;">

最佳答案

您可以使用http://jsoup.org/之类的解析器来解析html文件并使用选择器提取信息。

希望能帮助到你。

10-04 11:09
查看更多