我有一个largeDataFrame
(多列和数十亿行)和一个smallDataFrame
(单列和10,000行)。
每当largeDataFrame
中的some_identifier
列与largeDataFrame
中的行之一匹配时,我都希望从smallDataFrame
中过滤所有行。
这是一个例子:
largeDataFrame
some_idenfitier,first_name
111,bob
123,phil
222,mary
456,sue
smallDataFrame
some_identifier
123
456
期望的输出
111,bob
222,mary
这是我的丑陋解决方案。
val smallDataFrame2 = smallDataFrame.withColumn("is_bad", lit("bad_row"))
val desiredOutput = largeDataFrame.join(broadcast(smallDataFrame2), Seq("some_identifier"), "left").filter($"is_bad".isNull).drop("is_bad")
有没有更清洁的解决方案?
最佳答案
在这种情况下,您需要使用left_anti
连接。
左反连接与左半连接相反。
它根据给定的键从左表的右表中筛选出数据:
largeDataFrame
.join(smallDataFrame, Seq("some_identifier"),"left_anti")
.show
// +---------------+----------+
// |some_identifier|first_name|
// +---------------+----------+
// | 222| mary|
// | 111| bob|
// +---------------+----------+