scala - 分组后将Spark DataFrame的行聚合为String

我是Spark和Scale的新手，可能真的需要一个提示来解决我的问题。所以我有两个DataFrames A（列ID和名称）和B（列ID和文本）想要加入它们，按ID分组，并将所有文本行组合为一个String：

一个

+--------+--------+
|      id|    name|
+--------+--------+
|       0|       A|
|       1|       B|
+--------+--------+

乙

+--------+ -------+
|      id|    text|
+--------+--------+
|       0|     one|
|       0|     two|
|       1|   three|
|       1|    four|
+--------+--------+

预期结果：

+--------+--------+----------+
|      id|    name|     texts|
+--------+--------+----------+
|       0|       A|   one two|
|       1|       B|three four|
+--------+--------+----------+

到目前为止，我正在尝试以下操作：

var C = A.join(B, "id")
var D = C.groupBy("id", "name").agg(collect_list("text") as "texts")

除了我的texts列是Strings Array而不是String之外，这非常有效。我非常感谢您的帮助。

最佳答案

我只是在您的功能中添加一些次要功能以提供正确的解决方案，这是

A.join(B, Seq("id"), "left").orderBy("id").groupBy("id", "name").agg(concat_ws(" ", collect_list("text")) as "texts")