PySpark用另一列中的值替换列中的null

PySpark用另一列中的值替换列中的null

本文介绍了PySpark用另一列中的值替换列中的null的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想用相邻列中的值替换一列中的空值,例如,如果我有

I want to replace null values in one column with the values in an adjacent column ,for example if i have

A|B
0,1
2,null
3,null
4,2

我希望它是

A|B
0,1
2,2
3,3
4,2

尝试过

df.na.fill(df.A,"B")

但是没有用,它说值应该是浮点数,整数,长整数,字符串或字典

But didnt work, it says value should be a float, int, long, string, or dict

有什么想法吗?

推荐答案

最后找到了替代方法:

df.withColumn("B",coalesce(df.B,df.A))

这篇关于PySpark用另一列中的值替换列中的null的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-18 19:22