我有多个网站存储在数据库中,不同的抓取时间,如每5/10分钟为每个网站。我创造了蜘蛛和克朗一起爬行和奔跑。它将从数据库中获取所有网站,并对所有网站运行并行爬网。如何实现对存储在数据库中的不同时间点的网站进行抓取?有什么办法处理这个问题吗?
最佳答案
你试过在开始请求中添加计划组件吗?
def start_requests(self):
while:
for spid_url in url_db['to_crawl'].find(typ='due'):
// update url to crawltime
yield scrapy.Request(...)
// sleep until next_url_is_due
// set_crawl_to_due
if enough:
break