我有多个网站存储在数据库中,不同的抓取时间,如每5/10分钟为每个网站。我创造了蜘蛛和克朗一起爬行和奔跑。它将从数据库中获取所有网站,并对所有网站运行并行爬网。如何实现对存储在数据库中的不同时间点的网站进行抓取?有什么办法处理这个问题吗?

最佳答案

你试过在开始请求中添加计划组件吗?

def start_requests(self):
    while:
        for spid_url in url_db['to_crawl'].find(typ='due'):
            // update url to crawltime
            yield scrapy.Request(...)

        // sleep until next_url_is_due
        // set_crawl_to_due
        if enough:
            break

07-28 03:00
查看更多