我是使用Python进行Web爬网的绝对初学者,对Python编程的了解很少。我只是在试图提取田纳西州律师的信息。在该网页中,有多个链接,其中还有更多关于律师类别的链接,而这些链接中还有律师的详细信息。
我已经将各个城市的链接提取到一个列表中,并且还提取了每个城市链接中可用的各种律师。此外,我将每个律师的URL分别提取为不同的类别,并将它们存储在单独的集中。现在,我已经遍历了这些URL,以获取律师的详细信息,最后将它们写到.xls文件中。但是,当我运行我的代码时,该过程将继续执行并无限期地执行。我必须强制停止该过程,并且甚至在程序中指定的所需位置都没有创建.xls文件。该怎么办?如果可能的话建议。
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
final=[]
records=[]
with requests.Session() as s:
res = s.get('https://attorneys.superlawyers.com/tennessee/', headers = {'User-agent': 'Super Bot 9000'})
soup = bs(res.content, 'lxml')
cities = [item['href'] for item in soup.select('#browse_view a')]
for c in cities:
r=s.get(c)
s1=bs(r.content,'lxml')
categories = [item['href'] for item in s1.select('.three_browse_columns:nth-of-type(2) a')]
for c1 in categories:
r1=s.get(c1)
s2=bs(r1.content,'lxml')
lawyers = [item['href'].split('*')[1] if '*' in item['href'] else item['href'] for item in
s2.select('.indigo_text .directory_profile')]
for i in lawyers:
r2 = s.get(i)
s3 = bs(r2.content, 'lxml')
name = s3.select_one('#lawyer_name').text
category = s3.select_one('#attorney_profile_heading').text
firm = s3.select_one('#firm_profile_page').text
address = ' '.join([string for string in s3.select_one('#poap_postal_addr_block').stripped_strings][1:])
practices = ' '.join([item.text for item in s3.select('#pa_list li')])
records.append({'Names': name,'Category':category,'Address': address, 'Firm Name': firm,'Practice Area':practices})
df = pd.DataFrame(records,columns=['Names','Category','Address','Farm Name','Practice Areas'])
df=df.drop_duplicates()
df.to_excel(r'C:\Users\laptop\Desktop\lawyers.xls', sheet_name='MyData2', index = False, header=True)
“我希望程序能够完成执行并创建一个.xls文件,但是它仍在继续执行,甚至我也不知道需要多长时间才能完成执行。是否有可能发生无限循环?如果可能的话,建议。”
最佳答案
我发现您要抓取的数据太多,使用BeautifulSoup将花费很多时间,我尝试抓取this website,即使将搜索分为四个不同的程序文件,也要花费大约12个小时才能成功完成执行,我也只在布伦特伍德市尝试过您的代码,大约花了一个小时。我看不到您的代码中有无限循环!让它运行并保持耐心。
另外,您的程序尚未创建任何.xml,因为它尚未到达代码的那部分。
PS:我知道这应该是一个评论,但是我目前没有足够的声望。希望这个答案能帮助您,也让我获得声誉,下次可以发表评论。
关于python - 使用python中的bs4从网站的不同链接中获取律师详细信息,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56544839/