我在网络上有一个html文件,该文件几乎每分钟都会更新表中的新行。在任何时候,该文件都包含将近15000行,我想用该表中的所有数据创建一个MySQL表,然后再根据可用数据计算出更多数据。
所述HTML表格包含最近3天的行。我想将所有这些存储在我的mysql表中,并每小时大约更新一次表(可以通过cron完成吗?)
为了连接到数据库,我使用了MySQLdb
,它工作正常。但是,我不确定这样做的最佳实践是什么。我可以使用bs4
抓取数据,使用MySQLdb
连接到表。但是我应该如何更新表格?我应该使用什么逻辑来抓取使用最少资源的页面?
我没有得到任何结果,只是刮擦和书写。
有指针吗?
最佳答案
我的建议是不要逐行更新值,而是尝试在临时表中使用批量插入,然后根据某个计时键将数据移至实际表中。如果您有键列,则该键列很适合读取添加的最新行。
关于python - 从具有数千行的HTML表更新MySQL表,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/17939824/