作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息
前段时间项目中使用到了Hadoop Capacity Scheduler调度器,根据业务需求,需要进行二次开发工作,因此研究了其实现原理及源码,这里是自己做的一些总结工作(摘自ppt)。
1. 基本原理
2. 配置实用
3. 源码分析
1)启动过程
2)作业初始化-1
3)作业初始化-2
4)调度算法
5)作业调度
6)作业完成
4. 总结
以上只是对Capacity Scheduler内部实现的一些学习总结,接下来有时间再和大家详细分享我们的业务需求以及对Capacity Scheduler的实际改造工作。
一句话概括:Capacity Scheduler是一个基于队列的多用户单资源的作业调度器,首先要理解其基本原理,然后学会如何正确配置使用,接着在实际应用中排查定位遇到的问题,最后还要能够根据特定需求对其进行定制开发:)