您在下面看到的HTML是我从远程站点按原样抓取到本地变量中的文本。

现在,鉴于刮擦文本的以下一致格式,我需要将HTML标记中的authorNamebookTitle解析为它们自己的变量:

<p>
  William Faulkner - 'Light In August'
  <br/>
  William Faulkner - 'Sanctuary'
  <br/>
  William Faulkner - 'The Sound and the Fury'
</p>


是否可以在XPath中执行此操作?

最佳答案

是。也很容易:

//p/text()


将为您提供三个单独的文本节点:

"
  William Faulkner - 'Light In August'
  ",
"
  William Faulkner - 'Sanctuary'
  ",
"
  William Faulkner - 'The Sound and the Fury'
"


请记住,前后空格(包括任何换行符)始终是文本节点的一部分。修剪结果。

我认为您不需要帮助将生成的字符串分为作者和标题。

10-04 18:38