目录
一. DataFrame 详解
1. 数据清洗API
1.1 去重 :
1.2 去除空:
1.3 填充替换 :
2. SparkSQL的shuffle分区设置
如何调整shuffle分区数量呢? spark.sql.shuffle.partitions
3 . SparkSQL 数据写出操作
3.1 写出到文件系统
常用参数说明:
1- path:指定结果数据输出路径。支持本地文件系统和HDFS文件系统
2- mode:当输出目录中文件已经存在的时候处理办法
2.1- append:追加。如果文件已经存在,那么继续在该目录下产生新的文件
2.2- overwrite:覆盖。如果文件已经存在,那么就先将已有的文件清除,再写入进去
2.3- ignore:忽略。如果文件已经存在,那么不执行任何操作
2.4- error:报错。如果文件已经存在,那么直接报错。会报错AnalysisException: path file:xxx already exists.
3- sep:字段间的分隔符
4- header:数据输出的时候,是否要将字段名称输出到文件的第一行。推荐设置为True
5- encoding:文件输出的编码方式