您在下面看到的HTML是我从远程站点按原样抓取到本地变量中的文本。
现在,鉴于刮擦文本的以下一致格式,我需要将HTML标记中的authorName
和bookTitle
解析为它们自己的变量:
<p>
William Faulkner - 'Light In August'
<br/>
William Faulkner - 'Sanctuary'
<br/>
William Faulkner - 'The Sound and the Fury'
</p>
是否可以在XPath中执行此操作?
最佳答案
是。也很容易:
//p/text()
将为您提供三个单独的文本节点:
"
William Faulkner - 'Light In August'
",
"
William Faulkner - 'Sanctuary'
",
"
William Faulkner - 'The Sound and the Fury'
"
请记住,前后空格(包括任何换行符)始终是文本节点的一部分。修剪结果。
我认为您不需要帮助将生成的字符串分为作者和标题。