我无法让LinkExtractor在数据属性中查找链接。

HTML看起来像这样:

<a href='#' data-url='/path/to/page' >


LinkExtractor是这样的:

LinkExtractor(allow=('us/support/', ),attrs=('href','data-href','data-url',))


页面上还存在其他链接,这些链接带有HREF中的url,LinkExtractor可以找到那些很好的链接,而不是数据属性。

我发现了有关基于数据属性查找标签的类似问题,但没有发现有关在LinkExtractor中使用数据属性值的问题。

我认为这很普遍,所以我为必须找到答案感到麻烦。

任何帮助表示赞赏。

谢谢!

最佳答案

这里的问题是您正在设置allow参数,这将LinkExtractor限制为只能查找那些匹配的链接,您设置attrs参数正确,只需删除allow

le = LinkExtractor(attrs=('href','data-href','data-url',))

08-19 20:07