Spark_搜你所想

2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度

词处理二 . RDD持久化 1. 使用缓存: 2. RDD的checkpoint检查点: 3. 缓存和 checkpoint的区别: 三 . Spark内核调度 1.RDD依赖 2. DAG 和 Stage 3.shuffle阶段 4.JOB调度流程 5. Spar...

(view)

【Spark精讲】性能优化：并行度

Reduce端并行度 RDD：参数：spark.default.parallelism手动：groupByKey(10)，10即为并行度Spark SQL：参数：spark.sql.shuffle.partitionsHive on Spark： Map端加载数据的并行度 textFile等算子加载数据源，如果指定了minPartitions，如果最终切分的split数据大小小于blockSize，则会...

(view)

2024.1.4 Spark Core ,RDD ,算子

,关联算子分区算子: 重分区算子聚合算子关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性 Distrbuted分布式 Dataset数据集 1. rdd是Spark底层的数据结构 2. Task 在Spark中就是线程 3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少 ,set Master local里设置的就是线程 4. 使用 sc...

(view)

【Spark精讲】RDD缓存源码分析

Int) extends BlockId { override def name: String = "rdd_" + rddId + "_" + splitIndex} 在executor端调用SparkEnv.get.blockManager.getOrElseUpdate()方法， /** * Gets or computes an RDD partition. Used by RDD.itera...

(view)

【Spark精讲】SparkSQL Join选择逻辑

SparkSQL Join选择逻辑先看JoinSelection的注释翻译下就是：如果是等值join，就先看join hints，顺序如下 broadcast hint：join类型支持的话选择broadcast hash join，如果join的两边都有broadcast hint，选择小的（基于统计）一方去广播sort merge hint：如果join的key是可排序的，选择sort mer...

(view)

2024.1.3 Spark on Yarn部署方式与工作原理

目录 Spark集群类型有以下几种： Spark的部署方式有以下几种： Spark on YARN的部署方式有两种：client模式和cluster模式。 Spark底层的工作原理,执行流程 Spark集群类型有以下几种： Standalone模式：这是Spark自带的一种集群管理模式，可以在单个机器上启动一个Spark集群，适用于开发和测试环境。YARN模式：这是一种分布式资源管理器，可以与Hadoop集...

(view)

2024.1.3 Spark架构角色和提交任务流程

目录一 . Yarn的角色回顾二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapReduce执行效率高的原因四.Spark的排序算子一 . Yarn的角色回顾资源管理层面集群资源管理者(Master) : ResourceManager 单机资源管理者(Worker) : ...

(view)

【Spark精讲】记一个SparkSQL引擎层面的优化：SortMergeJoinExec

SparkSQL的Join执行流程如下图所示，在分析不同类型的Join具体执行之前，先介绍Join执行的基本框架，框架中的一些概念和定义是在不同的SQL场景中使用的。在Spark SQL中Join的实现都基于一个基本的流程，根据角色的不同，参与Join的两张表分别被称为"流式表"和"构建表"，不同表的角色在Spark SQL中会通过一定的策略进行设定，通常来讲，系统会默认大表为流式表，将小表设定为构建表...

(view)

【大数据面试知识点】Spark的DAGScheduler

Spark数据本地化是在哪个阶段计算首选位置的？先看一下DAGScheduler的注释，可以看到DAGScheduler除了Stage和Task的划分外，还做了缓存的跟踪和首选运行位置的计算。 DAGScheduler注释： DAGScheduler的运行时机 DAGScheduler运行时机：Driver端初始化SparkContext时。DAGScheduler是在整个Spark Applicati...

(view)

【Spark精讲】一文讲透SparkSQL执行过程

SparkSQL执行过程逻辑计划逻辑计划阶段会将用户所写的 SQL语句转换成树型数据结构(逻辑算子树)， SQL语句中蕴含的逻辑映射到逻辑算子树的不同节点。顾名思义，逻辑计划阶段生成的逻辑算子树并不会直接提交执行，仅作为中间阶段。最终逻辑算子树的生成过程经历 3 个子阶段，分别对应未解析的逻辑算子树( Unresolved LogicalPlan，仅仅是数据结构，不包含任何数据信息等 )、解析后的...

(view)

上一页 1 3 4 5 6 7 8 9 10 下一页