使用MySQL的executemany()插入数据时,是否有内置的方法可以忽略字典中的字段?

我需要从JSON文件中提供的相对较大的数据集中插入数据。因此,JSON数据的基本布局为:

{
    "data" : [
        { "f1" : 42, "f2" : "abc", "f99" : "useless stuff" },
        { "f1" : 43, "f2" : "def", "f99" : [ "junk", "here" ] },
        { "f1" : 44, "f2" : "ghi", "f99" : { "thing" : 99 } }
    ]
}


我有一个看起来像这样的插入设置:

import json
import mysql.connector
with open( 'huge_data_dump.json', 'rb' ) as fh:
    data = json.load( fh )
connection = mysql.connector.connect( **mysql_config )
cursor = connection.cursor()
query = 'INSERT INTO `example` ( `f1`, `f2` ) VALUES ( %(f1)s, %(f2)s )'
cursor.executemany( query, data[ 'data' ] )
cursor.close()
connection.close()


目标表如下所示:

CREATE TABLE `example` ( `f1` INT, `f2` VARCHAR( 10 ) )


但是,当我运行此命令时,出现错误:

Failed processing pyformat-parameters; Python 'list' cannot be converted to a MySQL type


如果我仅将导入限制为示例数据集中的第一行,则插入效果很好:

cursor.executemany( query, data[ 'data' ][ : 1 ] )


问题来自f99字段中包含谁知道什么的多余数据。这对我来说很好:我不需要来自f99的任何信息。但是,MySQL连接器似乎希望在检查查询以查看是否需要该值之前将整个记录的字典转换为安全字符串。

我尝试使用生成器函数将数据集过滤到对executemany()的调用中,但是连接器抱怨只能接受元组和列表(我觉得这是一个非Pythonic的接口)。

我的最后一招是将数据复制到新字典中,并在将数据传递到executemany()之前过滤掉不需要的字段。但是,这些数据集已经足够大了,在这里我考虑从JSON源文件中以一次几百次插入的组流式传输它们。试图消除所有不需要的数据的其他循环将是浪费,需要维护更多代码。我衷心希望我能忽略文档未涵盖或掩盖的内容。

我想我可以开始研究输入上的一些自定义JSON过滤,但是,我再次希望有一种简单的内置方法来解决(似乎是)一个相对常见的用例。

最佳答案

您可以使用生成器为数据列表中的每个记录创建所需列的元组:

(d["f1"], d["f2"] for d in data['data'])


将此生成器传递给executemany函数应该可以正常工作。

编辑:您可能需要将查询更改为

query = 'INSERT INTO `example` ( `f1`, `f2` ) VALUES ( %s, %s )'


但是我不太确定。

关于python - 带有附加值的Python MySQL Connector executemany,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31194038/

10-12 14:24