scrapy - 使用 Scrapy 增量抓取网站

我是爬虫的新手，想知道是否可以使用 Scrapy 以增量方式爬取网站，例如 CNBC.com？例如，如果今天我抓取了一个站点的所有页面，那么从明天开始我只想收集该站点新发布的页面，以避免抓取所有旧页面。

感谢您提供任何信息。或对此进行输入。

最佳答案

是的，你可以，而且实际上很容易。每个新闻网站都有一些非常重要的索引页面，例如主页和类别(例如政治、娱乐等)。没有任何文章不经过这些页面至少几分钟。每隔一分钟左右扫描这些页面并只保存链接。然后对数据库中已有的内容进行比较，每天几次发出爬行以抓取所有丢失的链接。非常标准的做法。

关于scrapy - 使用 Scrapy 增量抓取网站，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/37286480/