我有一个数据帧,我想将它合并到另一个数据帧中,但只影响特定的单元格而不是整行。
旧数据框:
## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## | 1| aa| ab|
## | 2| bb| bc|
## +---+----+----+
新数据框:
## +---+----+
## |key|val1|
## +---+----+
## | 2| bbb|
## +---+----+
结果:
## +---+----+----+
## |key|val1|val2|
## +---+----+----+
## | 1| aa| ab|
## | 2| bbb| bc|
## +---+----+----+
在这种情况下,键是唯一的,因此要影响的行将始终是可识别的。旧数据帧也将始终包含来自新数据帧的键。
由于数据帧是不可变的,我将不得不调用
withColumn
来创建一个新的,大概是通过传入某种 UDF,但是当谈到 UDF 应该包含的内容时,我有点迷茫。 最佳答案
您需要使用外连接来获得预期的输出:
scala> val oldDf = Seq((1, "aa", "ab"), (2, "bb", "bc")).toDF("key", "val1", "val2").as("old")
// oldDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string ... 1 more field]
scala> val newDf = Seq((2, "bbb")).toDF("key", "val1").as("new")
// newDf: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [key: int, val1: string]
scala> oldDf.join(newDf, Seq("key"), "outer").select($"key", coalesce($"new.val1", $"old.val1").alias("val1"), $"val2").show
// +---+----+----+
// |key|val1|val2|
// +---+----+----+
// | 1| aa| ab|
// | 2| bbb| bc|
// +---+----+----+
注意:
coalesce
将选择 new.val1
和 old.val1
之间的第一个非空值。关于scala - 更新 Spark DataFrame 中的一些行值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39872844/