我写了这段代码,它目前正在运行,正在抓取大量数据。到目前为止,循环已经运行了800次。它必须运行约16,000次才能获取所有数据。
一般来说,如何优化网页抓取代码,还是我受任于request.get?
import json
import requests
import pandas as pd
from pandas.io.json import json_normalize
headers = {}
p = {}
a = int(p['page'])
df = pd.DataFrame()
while True:
p['page'] = str(a)
try:
a += 1
r = requests.get('URL',headers=headers, params=p)
complete_json = r.json()
print('success')
df_data = pd.DataFrame.from_dict(json_normalize(complete_json['explore_vintage']['matches']), orient='columns')
df = df.append(df_data)
except:
False
df.to_excel('output.xlsx', encoding='utf8')
df.to_csv("output.csv")
print(df.head)
最佳答案
我可以立即看到一些优化。
您可以在此处添加的第一件事是通过异步请求进行并行处理。正如您所看到的,requests
库是同步的,它将阻塞直到每个页面都完成处理。 requests
项目number中有一个of libraries officially recommends。如果走这条路线,您将需要更明确地定义一个终止条件,而不是无限的try
循环内的except
/ while
块。
这主要是从其示例中剥离的所有伪代码,但是您可以看到这是如何工作的:
from requests_futures.sessions import FuturesSession
from concurrent.futures import as_completed
import json
import time
def response_hook(resp, *args, **kwargs):
with open(f'tmp/{time.thread_time_ns()}.json', 'wb') as fp:
parsed = resp.json()
fp.write(json.dumps(parsed).encode('utf-8'))
futures_session = FuturesSession()
futures_session.hooks['response'] = response_hook
with futures_session as session:
futures = [
session.get(f'https://jsonplaceholder.typicode.com/todos/{i}', hooks={'response': response_hook}) for i in range(16000)
]
for future in as_completed(futures):
resp = future.result()
将数据解析为数据帧是一个明显的瓶颈。随着数据帧变得越来越大,当前这将继续减慢速度。我不知道这些JSON响应的大小,但是如果您要获取16k响应,我想一旦您吃光了内存,这很快就会停顿下来。如果可能的话,我建议将抓取和转换操作解耦。将所有抓取的数据保存到自己的独立JSON文件中(如上例所示)。如果分别保存每个响应,并且抓取完成,则可以遍历所有已保存的内容,进行解析,然后输出到Excel和CSV。请注意,根据JSON文件的大小,您仍然可能会遇到内存问题,至少不会阻止抓取过程,并且可以单独处理输出处理。
关于python - 如何优化网页抓取代码段以使其运行更快?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59915322/