这种情况是,我们有多个服务器(40+),可以同时刮取一个相同的url(以确保我们有最小的遗产),并将数据保存到数据库(mysql)中。
现在的问题是:数据是来回切换的。例如,由于爬虫程序/数据库的遗留问题,在几秒钟内内容将是ababa。
有没有好的方法来预防呢?我们正在用perl编写爬虫程序,但是任何语言都可以,因为我们可以借用后面的思想。
任何小费都将不胜感激。瑞丝?Zeromq公司?
谢谢

最佳答案

Lock a row so another process cannot update it.

10-08 06:34