我是爬虫的新手,想知道是否可以使用 Scrapy 以增量方式爬取网站,例如 CNBC.com?例如,如果今天我抓取了一个站点的所有页面,那么从明天开始我只想收集该站点新发布的页面,以避免抓取所有旧页面。

感谢您提供任何信息。或对此进行输入。

最佳答案

是的,你可以,而且实际上很容易。每个新闻网站都有一些非常重要的索引页面,例如主页和类别(例如政治、娱乐等)。没有任何文章不经过这些页面至少几分钟。每隔一分钟左右扫描这些页面并只保存链接。然后对数据库中已有的内容进行比较,每天几次发出爬行以抓取所有丢失的链接。非常标准的做法。

关于scrapy - 使用 Scrapy 增量抓取网站,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37286480/

10-14 02:40