在Spark版本1.2.0中,可以将subtract
与2 SchemRDD
一起使用,以仅得到与第一个不同的内容
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
包含todaySchemRDD
中不存在yesterdaySchemaRDD
的行。如何在Spark版本1.3.0中使用
DataFrames
来实现? 最佳答案
根据api docs,执行以下操作:
dataFrame1.except(dataFrame2)
将返回一个新的DataFrame,其中包含dataFrame1中的行,但不包含dataframe2中的行。