我正在尝试使用漂亮的汤从页面中检索所有产品。该页面具有分页功能,为了解决该问题,我制作了一个循环以使检索工作适用于所有页面。
但是,当我转到下一步并尝试“ find_all()”标记时,它仅给出最后一页的数据。
如果我尝试在一个孤立的页面上运行良好,那么我认为从所有页面获取所有html都是一个问题。
我的代码是下一个:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import urllib3 as ur
http = ur.PoolManager()
base_url = 'https://www.kiwoko.com/tienda-de-perros-online.html'
for x in range (1,int(33)+1):
dog_products_http = http.request('GET', base_url+'?p='+str(x))
soup = BeautifulSoup(dog_products_http.data, 'html.parser')
print (soup.prettify)
和已经完成的:
soup.find_all('li', {'class': 'item product product-item col-xs-12 col-sm-6 col-md-4'})
就像我说的,如果我不使用for范围,而只检索一页(例如:https://www.kiwoko.com/tienda-de-perros-online.html?p=10),它可以正常工作并提供36种产品。
我已将“汤”复制到一个Word文件中,并搜索该类以查看是否存在问题,但是我正在寻找所有1.153产品。
因此,我认为汤是正确的,但是当我寻找“一个以上的html”时,我认为发现所有的方法都没有用。
可能是什么问题呢?
最佳答案
您确实希望将find
放入循环中,但这是一种复制页面进行的ajax调用的方法,它使您可以按请求返回更多项目,还可以动态计算页面数并针对所有产品发出请求。
我重用Session的连接以提高效率。
from bs4 import BeautifulSoup as bs
import requests, math
results = []
with requests.Session() as s:
r = s.get('https://www.kiwoko.com/tienda-de-perros-online.html?p=1&product_list_limit=54&isAjax=1&_=1560702601779').json()
soup = bs(r['categoryProducts'], 'lxml')
results.append(soup.select('.product-item-details'))
product_count = int(soup.select_one('.toolbar-number').text)
pages = math.ceil(product_count / 54)
if pages > 1:
for page in range(2, pages + 1):
r = s.get('https://www.kiwoko.com/tienda-de-perros-online.html?p={}&product_list_limit=54&isAjax=1&_=1560702601779'.format(page)).json()
soup = bs(r['categoryProducts'], 'lxml')
results.append(soup.select('.product-item-details'))
results = [result for item in results for result in item]
print(len(results))
# parse out from results what you want, as this is a list of tags, or do in loop above
关于python - 寻找全部的美丽汤只能得到最后的结果,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56620632/