2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度
词处理 二 . RDD持久化 1. 使用缓存: 2. RDD的checkpoint检查点: 3. 缓存和 checkpoint的区别: 三 . Spark内核调度 1.RDD依赖 2. DAG 和 Stage 3.shuffle阶段 4.JOB调度流程 5. Spar...
【Spark精讲】性能优化:并行度
Reduce端并行度 RDD: 参数:spark.default.parallelism手动:groupByKey(10),10即为并行度Spark SQL: 参数:spark.sql.shuffle.partitionsHive on Spark: Map端加载数据的并行度 textFile等算子加载数据源,如果指定了minPartitions,如果最终切分的split数据大小小于blockSize,则会...
2024.1.4 Spark Core ,RDD ,算子
,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性 Distrbuted分布式 Dataset数据集 1. rdd是Spark底层的数据结构 2. Task 在Spark中就是线程 3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少 ,set Master local里设置的就是线程 4. 使用 sc...
【Spark精讲】RDD缓存源码分析
Int) extends BlockId { override def name: String = "rdd_" + rddId + "_" + splitIndex} 在executor端调用SparkEnv.get.blockManager.getOrElseUpdate()方法, /** * Gets or computes an RDD partition. Used by RDD.itera...
【Spark精讲】SparkSQL Join选择逻辑
SparkSQL Join选择逻辑 先看JoinSelection的注释 翻译下就是: 如果是等值join,就先看join hints,顺序如下 broadcast hint:join类型支持的话选择broadcast hash join,如果join的两边都有broadcast hint,选择小的(基于统计)一方去广播sort merge hint:如果join的key是可排序的,选择sort mer...
2024.1.3 Spark on Yarn部署方式与工作原理
目录 Spark集群类型有以下几种: Spark的部署方式有以下几种: Spark on YARN的部署方式有两种:client模式和cluster模式。 Spark底层的工作原理,执行流程 Spark集群类型有以下几种: Standalone模式:这是Spark自带的一种集群管理模式,可以在单个机器上启动一个Spark集群,适用于开发和测试环境。YARN模式:这是一种分布式资源管理器,可以与Hadoop集...
2024.1.3 Spark架构角色和提交任务流程
目录 一 . Yarn的角色回顾 二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapReduce执行效率高的原因 四.Spark的排序算子 一 . Yarn的角色回顾 资源管理层面 集群资源管理者(Master) : ResourceManager 单机资源管理者(Worker) : ...
【Spark精讲】记一个SparkSQL引擎层面的优化:SortMergeJoinExec
SparkSQL的Join执行流程 如下图所示,在分析不同类型的Join具体执行之前,先介绍Join执行的基本框架,框架中的一些概念和定义是在不同的SQL场景中使用的。 在Spark SQL中Join的实现都基于一个基本的流程,根据角色的不同,参与Join的两张表分别被称为"流式表"和"构建表",不同表的角色在Spark SQL中会通过一定的策略进行设定,通常来讲,系统会默认大表为流式表,将小表设定为构建表...
【大数据面试知识点】Spark的DAGScheduler
Spark数据本地化是在哪个阶段计算首选位置的? 先看一下DAGScheduler的注释,可以看到DAGScheduler除了Stage和Task的划分外,还做了缓存的跟踪和首选运行位置的计算。 DAGScheduler注释: DAGScheduler的运行时机 DAGScheduler运行时机:Driver端初始化SparkContext时。DAGScheduler是在整个Spark Applicati...
【Spark精讲】一文讲透SparkSQL执行过程
SparkSQL执行过程 逻辑计划 逻辑计划阶段会将用户所写的 SQL语句转换成树型数据结构(逻辑算子树), SQL语句中蕴含的逻辑映射到逻辑算子树的不同节点。 顾名思义,逻辑计划阶段生成的逻辑算子树并不会直接提交执行,仅作为中间阶段 。 最终逻辑算子树的生成过程经历 3 个子阶段,分别对应未解析的逻辑算子树( Unresolved LogicalPlan,仅仅是数据结构,不包含任何数据信息等 )、解析后的...