请有人让我知道如何识别要重新抓取的网址中的更新吗?当页面要重新爬网时,我只想爬网页面的更新内容,而不是已经爬网的旧内容。
提前致谢。
普拉亚

最佳答案

我认为您的意思是,仅当在服务器端修改了内容时,才想重新爬网URL。您想让小坚果识别它,从而明智地决定是否获取内容。

Nutch的想法是维持页面的“上次修改时间”,并且在重新爬网页面时已存储它并且不使用它。 They knew可以节省磁盘空间和带宽,但是由于其他问题而没有引起人们的注意。 People had raised这个问题,但我仍然看不到nutch开发团队的任何 Activity 。为了改善Efforts were taken,我仍然不确定当前版本使用“上次修改”字段的精确程度。

08-18 16:02
查看更多