我正在尝试使用Python的BeautifulSoup库从我的LinkedIn "Recently Added Connections"页面提取HTML。具体来说,我想要最新的连接名称-它出现在页面顶部。
当我检查此特定部分的HTML时,看到的是包装内容:
<span class="mn-connection-card__name t-16 t-black t-bold">
Bob McBobface
</span>
但是,我使用BeautifulSoup返回的HTML令人失望:
{"request":"/voyager/api/configuration","status":200,"body":"bpr-guid-3322365"}
{"status":401}
我尝试摆弄Requests library,但无济于事。我是一个初学者,所以希望我不需要花几个星期来学习有关OAuth或Selenium的知识。
这是我的代码:
from bs4 import BeautifulSoup
import urllib.request
url = "https://www.linkedin.com/mynetwork/invite-connect/connections/"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
#print(soup)
content_list = soup.find_all('span',class_="mn-connection-card__name t-16 t-black t-bold")
print(content_list)
运行此命令将返回一个空列表:[],而我期望:“ Bob McBobface”。
当我
print(soup)
时,它只是返回一个简短的HTML内容,并带有您在上面看到的401错误通知。有什么建议吗?
最佳答案
LinkedIn要求您登录才能访问该页面。您似乎未在呼叫中添加任何身份验证。 401通常是身份验证错误,因此将在此处排队。
This question answers how to authenticate properly with LinkedIn
关于python - 使用BeautifulSoup对LinkedIn进行Web爬网时出现401错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57614755/