我有一个数据集

+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

每天需要数字错误计数

输出
+----------+--------+------------+
|    date|       errors| count
+----------+--------+------------+
 |20170319|      error1|    2
 |20170319|      error2|    3
 |20170319|        err6|    1
    val dataset = spark.read.json(path);
    val c =dataset.groupBy("date").count()

//我如何继续计算错误

我在Spark Scala SQL中尝试了Windowing over date,但找不到有效的方法
我需要转换为Rdd并找到一种方法吗?

最佳答案

您只需要groupBydate即可。

val c =dataset.groupBy("date","errors").count()

关于sql - Spark 计数中分组的词数,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54952384/

10-12 13:54