我正在寻找this page的“说明”部分。它包含多个<p>
标记。我可以使用以下xpath
检索它们:
response.xpath('//div[@itemprop="description"]/p/text()').extract()
但是结果是以列表的形式,不符合我的期望:
['\r\n\tLancée en 2016, la start-up ',
'est spécialisée dans le développement de ',
" permettant l'",
" et l'amélioration de sa prise en charge.",
'\r\n\t',
'\r\n\tLa jeune pousse développe ',
', un dossier médical numérique universel regroupant toutes les ',
' (antécédents, allergies, contre-indications, ordonnances, imagerie, biologie...).',
'\r\n\t\xa0',
'\r\n\tLes solutions développées par InnovSanté permettent de faciliter le parcours de soins, de connecter les différents intervenants de la santé et de générer des économies de santé publique.\xa0']
我想使用以下命令添加
normalize-space
的功能来检索“干净数据”:response.xpath('normalize-space(//div[@itemprop="description"]/p/text())').extract()
但是,结果仅限于先前显示的列表的第一个
<p>
标记:['Lancée en 2016, la start-up']
最佳答案
您可以同时使用string
和normalize-space
:
description = response.xpath('normalize-space(string(//div[@itemprop="description"]))').extract_first()
关于python - 规范化空间不足以提供糟糕的内容,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48992426/