我正在寻找this page的“说明”部分。它包含多个<p>标记。我可以使用以下xpath检索它们:

response.xpath('//div[@itemprop="description"]/p/text()').extract()


但是结果是以列表的形式,不符合我的期望:

['\r\n\tLancée en 2016, la start-up ',
 'est spécialisée dans le développement de ',
 " permettant l'",
 " et l'amélioration de sa prise en charge.",
 '\r\n\t',
 '\r\n\tLa jeune pousse développe ',
 ', un dossier médical numérique universel regroupant toutes les ',
 ' (antécédents, allergies, contre-indications, ordonnances, imagerie, biologie...).',
 '\r\n\t\xa0',
 '\r\n\tLes solutions développées par InnovSanté permettent de faciliter le parcours de soins, de connecter les différents intervenants de la santé et de générer des économies de santé publique.\xa0']


我想使用以下命令添加normalize-space的功能来检索“干净数据”:

response.xpath('normalize-space(//div[@itemprop="description"]/p/text())').extract()


但是,结果仅限于先前显示的列表的第一个<p>标记:

['Lancée en 2016, la start-up']

最佳答案

您可以同时使用stringnormalize-space

description = response.xpath('normalize-space(string(//div[@itemprop="description"]))').extract_first()

关于python - 规范化空间不足以提供糟糕的内容,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48992426/

10-12 17:55