This question already has answers here:
Using beautiful soup to get html attribute value
(2个答案)
5个月前关闭。
我正在尝试使用BS4进行一些Web抓取。
到目前为止,我已经提取了
但是,我只想拥有ID从哪个条目开始的网址。
我尝试了
我想念什么?
输出:
(2个答案)
5个月前关闭。
我正在尝试使用BS4进行一些Web抓取。
到目前为止,我已经提取了
<a>
urls = [item for item in soup.select('h4 a')]
但是,我只想拥有ID从哪个条目开始的网址。
<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>
我尝试了
item.id
,但是它不起作用。我想念什么?
最佳答案
将re
模块与id
一起使用。
这是如何做:
from bs4 import BeautifulSoup
import re
if __name__ == "__main__":
html = '<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.find('a', id=re.compile('^entry_')))
输出:
<a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a>