我有一个小型个人项目,应该从不同的网上商店收集数据。我基本上要做的是每天晚上运行cron脚本。该脚本使用PHP的简单HTML DOM解析器来获取选定产品组中产品的价格。

到目前为止,我的数据库由三个表组成:
-每个网上商店的stores名称,URL等
-每个产品的products URL,产品名称等
-prices每种产品每天的价格

我的问题是prices表。每次cron脚本运行时,即使产品价格不变,它也会保存每个产品(300+)的价格数据新条目。我知道我可以通过检查价格是否更改来防止保存不必要的数据。但是话又说回来,某种产品可以从库存中取出,而没有任何关于何时缺货的信息(如果我每天节省价格的话)。你们将如何做得更有效?由于DOM解析,cron脚本可能需要很长时间才能执行,我想确保一切都按预期进行了解析并添加到了数据库中。

最佳答案

我猜您可以跟踪每个解析的DOM,并存储它的校验和,以查看第二天​​晚上再次加载它时是否已更改。如果校验和相同,您将不需要解析也不需要更新,因为什么都不会改变。

10-06 12:56
查看更多