我目前正在尝试解析 HTML 文档以检索其中的所有脚注;该文件包含几十个和几十个。我真的无法弄清楚用于提取我想要的所有内容的表达式。问题是,每个文档中的类(例如“calibre34”)都是随机的。查看脚注位置的唯一方法是搜索“隐藏”,之后它始终是文本,并用 标记关闭。下面是 HTML 文档中脚注之一的示例,我想要的只是文本。有任何想法吗?谢谢你们!

<td class="calibre33">1.<span><a class="x-xref" href="javascript:void(0);">
[hide]</a></span></td>
<td class="calibre34">
Among the other factors on which the premium would be based are the
average size of the losses experienced, a margin for contingencies,
a loading to cover the insurer's expenses, a margin for profit or
addition to the insurer's surplus, and perhaps the investment
earnings the insurer could realize from the time the premiums are
collected until the losses must be paid.</td>

最佳答案

使用 HTMLAgilityPack 加载 HTML 文档,然后使用此 XPath 提取脚注:



基本上,它所做的是首先选择所有包含 td[hide] 节点,然后最后去选择它们的下一个兄弟节点。所以下一个 td 。一旦你有了这个节点集合,你就可以提取它们的内部文本(在 C# 中,在 HtmlAgilityPack 中提供支持)。

关于c# - 如何解析此 HTML 以获得我想要的内容?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11250692/

10-08 23:22