如何在spark 1.4的SparkR中绑定(bind)两列dataframe
TIA,阿伦
最佳答案
没有办法做到这一点。这是一个关于 Scala 中 spark (1.3) 的问题。能够做到这一点的唯一方法是使用某种 row.numbering,因为这样您就可以在 row.number 上加入。为什么?因为您只能基于其他已存在的列连接表或添加列
data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))
然后
withColumn(data1,"b",data1$a + 1)
是允许的,但是
withColumn(data1,"b",data2$b)
不是。从 Spark 将您的 DataFrame 切成块来存储它的那一刻起,它就不知道如何绑定(bind)它们(它不知道行排序),只有当您拥有 row.numbers 时。
关于apache-spark - 如何在 sparkR 中绑定(bind)两个数据框列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31589222/