我的MySQL表架构是:
CREATE DATABASE test_db;
USE test_db;
CREATE TABLE test_table (
id INT AUTO_INCREMENT,
last_modified DATETIME NOT NULL,
PRIMARY KEY (id)
) ENGINE=InnoDB;
当我运行以下基准脚本时,我得到:
b1:20.5559301376
b2:0.504406929016
from timeit import timeit
import MySQLdb
ids = range(1000)
query_1 = "update test_table set last_modified=UTC_TIMESTAMP() where id=%(id)s"
query_2 = "update test_table set last_modified=UTC_TIMESTAMP() where id in (%s)" % ", ".join(('%s', ) * len(ids))
db = MySQLdb.connect(host="localhost", user="some_user", passwd="some_pwd", db="test_db")
def b1():
curs = db.cursor()
curs.executemany(query_1, ids)
db.close()
def b2():
curs = db.cursor()
curs.execute(query_2, ids)
db.close()
print "b1: %s" % str(timeit(lambda:b1(), number=30))
print "b2: %s" % str(timeit(lambda:b2(), number=30))
为什么
executemany
和IN
子句之间有如此大的差异?我正在使用Python 2.6.6和MySQL-python 1.2.3。
我能找到的唯一相关问题是-Why is executemany slow in Python MySQLdb?,但这并不是我真正想要的。
最佳答案
executemany
反复往返于MySQL服务器,然后它需要解析查询,执行查询并返回结果。即使它更复杂,这可能比在单个SQL语句中执行所有操作的速度慢10倍。
但是,对于INSERT
,this表示它将做聪明的事情,并为您构造多行INSERT
,从而提高了效率。
因此,IN(1,2,3,...)
比UPDATE;UPDATE;UPDATE...
更有效率
如果您具有ID序列,那么最好说WHERE id BETWEEN 1 and 1000
。这是因为它可以简单地扫描行,而不是从头开始查找每一行。 (我假设id
已被索引,可能是PRIMARY KEY
。)
另外,您可能正在使用使每个插入/更新/删除成为其自己的“事务”的设置。这给每个UPDATE
增加了很多开销。在这种情况下,这可能不是理想的。我怀疑您希望整个1000行更新都是原子的。
底线:仅对必须单独运行的(a)executemany
或(b)语句使用INSERTs
。