This question already has answers here:
Using beautiful soup to get html attribute value
                                
                                    (2个答案)
                                
                        
                                5个月前关闭。
            
                    
我正在尝试使用BS4进行一些Web抓取。

到目前为止,我已经提取了<a>

urls = [item for item in soup.select('h4 a')]


但是,我只想拥有ID从哪个条目开始的网址。

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>


我尝试了item.id,但是它不起作用。

我想念什么?

最佳答案

re模块与id一起使用。
这是如何做:

from bs4 import BeautifulSoup
import re

if __name__ == "__main__":
    html = '<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>'
    soup = BeautifulSoup(html, 'html.parser')

    print(soup.find('a', id=re.compile('^entry_')))


输出:

<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>

10-07 13:23
查看更多