目录
一. Spark SQL中数据清洗的API有哪些,各自作用是什么?
二. 设置Spark SQL的shuffle分区数的方式有哪几种
一. Spark SQL中数据清洗的API有哪些,各自作用是什么?
1. 去重
2. 去除空值
3. 填充替换
二. 设置Spark SQL的shuffle分区数的方式有哪几种
方式一:
全局设置: Spark.sql.shuffle.Partitions 数量
方式二:
动态设置shuffle分区数量 : ./spark-submit --conf "spark.sql.shuffle.partitions=数量"
方式三:
写死分区数: sparkSession.conf.set('spark.sql.shuffle.partitions',数量)
三. 数据写出到数据库需要注意什么?
中文乱码问题。需要设置数据库编码,以及在连接URL中指定编码参数
?useUnicode=true&characterEncoding=utf-8
四. Spark程序运行集群分类
Spark 集群 : Spark自带的集群 , 也称为Standalone
Yarn集群:Spark程序运行在Yarn上