2024.1.9 Spark SQL day06 homework

一. Spark SQL中数据清洗的API有哪些，各自作用是什么？

1. 去重

2. 去除空值

3. 填充替换

方式一:

全局设置: Spark.sql.shuffle.Partitions 数量

方式二:

动态设置shuffle分区数量 : ./spark-submit --conf "spark.sql.shuffle.partitions=数量"

方式三:

写死分区数: sparkSession.conf.set('spark.sql.shuffle.partitions',数量)

中文乱码问题。需要设置数据库编码，以及在连接URL中指定编码参数

?useUnicode=true&characterEncoding=utf-8

Spark 集群 : Spark自带的集群 , 也称为Standalone

Yarn集群:Spark程序运行在Yarn上