我们计划将Apache Pig代码移至新的Spark平台。
Pig具有“包/元组/字段”的概念,其行为类似于关系数据库。 Pig为CROSS / INNER / OUTER连接提供支持。
对于CROSS JOIN,我们可以使用alias = CROSS alias, alias [, alias …] [PARTITION BY partitioner] [PARALLEL n];
但是当我们转到Spark平台时,我在Spark API中找不到任何对应的对象。你有什么主意吗?
最佳答案
它是oneRDD.cartesian(anotherRDD)
。
关于apache-spark - 如何在Spark中实现“交叉加入”?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24858489/