python - 将标准python键值字典列表转换为pyspark数据帧

ARG2

关注

发信

java - hibernate 更新查询第二次不起作用

c++ - 如何在作用域内创建指向模板化函数的指针？

javascript - 在委托(delegate)事件上触发最接近的按钮

javascript - 我怎样才能正确地积分？

c - C编程UART功能不兼容的指针类型

python - 如何从应用返回正确格式的 Pandas 数据框？

python - 正则表达式找到包含“-”的单词

c++ - 尝试将static_cast <> const char []转换为无符号字符时出错*

JavaScript子数组没有复制？

algorithm - 算法设计手册中有关数据结构的最佳解决方案

python - Notepad++ 缩进弄乱了

sql-server - 如何防止其他应用程序连接到SQL Server？

java - 如何找出给定的字符串已经在Java字符串池中？

MySQL查询AND OR运算符逻辑

c++ - C++构造全局变量

python - 将标准python键值字典列表转换为pyspark数据帧

扫码查看

假设我有一个python字典键值对的列表，其中的键对应于表的列名，那么下面的列表如何将其转换为具有两个cols arg1 arg2的pyspark数据帧？

 [{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""}]

如何使用下面的构造来完成此操作？

df = sc.parallelize([
    ...
]).toDF

将arg1 arg2放在上面代码中的位置（…）

最佳答案

老办法：

sc.parallelize([{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""}]).toDF()

新方法：

from pyspark.sql import Row
from collections import OrderedDict

def convert_to_row(d: dict) -> Row:
    return Row(**OrderedDict(sorted(d.items())))

sc.parallelize([{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""},{"arg1": "", "arg2": ""}]) \
    .map(convert_to_row) \
    .toDF()

10-04 22:28