我无法让LinkExtractor在数据属性中查找链接。
HTML看起来像这样:
<a href='#' data-url='/path/to/page' >
LinkExtractor是这样的:
LinkExtractor(allow=('us/support/', ),attrs=('href','data-href','data-url',))
页面上还存在其他链接,这些链接带有HREF中的url,LinkExtractor可以找到那些很好的链接,而不是数据属性。
我发现了有关基于数据属性查找标签的类似问题,但没有发现有关在LinkExtractor中使用数据属性值的问题。
我认为这很普遍,所以我为必须找到答案感到麻烦。
任何帮助表示赞赏。
谢谢!
最佳答案
这里的问题是您正在设置allow参数,这将LinkExtractor
限制为只能查找那些匹配的链接,您设置attrs
参数正确,只需删除allow
:
le = LinkExtractor(attrs=('href','data-href','data-url',))