我希望在 RDD 和 cassandra 表上建立连接,它们的名称与相同的键不同
前(简化):
case class User(id : String, name : String)
和
case class Home( address : String, user_id : String)
如果想做:
rdd[Home].joinWithCassandraTable("testspark","user").on(SomeColumns("id"))
我怎样才能精确地进行连接的字段的名称。
而且我不想将 rdd 映射为只有正确的 id,因为我想在 joinWithCassandraTable 之后加入所有值。
最佳答案
您可以像在选择中一样使用“as”语法来更改连接列的映射。
一个例子
sc.cassandraTable[Home]("ks","home").joinWithCassandraTable("ks","user").on(SomeColumns("id" as "user_id")).collect
将用户表中的“id”列映射到
Home
案例类中的“user_id”字段。关于scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32209385/