上一节介绍了Flume多个agent连接配合使用。本节博主将为小伙伴们介绍azkaban的相关概念、简单的安装使用。由于azkaban使用新版本太耗时间,需要编译安装,所以博主此次就使用编译好的老版本2.5;等全部教程做完后,博主会将各软件的最新版本的使用安装在后面补充章节中推出。

   一、工作流调度器azkaban

          概述

          1.1、为什么需要工作流调度系统

                 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

                 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
                 1、通过Hadoop先将原始数据同步到HDFS上;
                 2、借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;
                 3、需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;
                 4、将明细数据进行复杂的统计分析,得到结果报表信息;
                 5、需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。

          1.2、工作流调度实现方式

                 简单的任务调度:直接使用linux的crontab来定义;
                 复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如ooize、azkaban等

          1.3、常见工作流调度系统

                  市面上目前有许多工作流调度器,在hadoop领域,常见的工作流调度器有Oozie, Azkaban,Cascading,Hamake等

          1.4、各种调度工具特性对比

                  下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考

          1.5、Azkaban与Oozie对比

                  对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。
                 详情如下:
                 功能
                 两者均可以调度mapreduce,pig,java,脚本工作流任务
                 两者均可以定时执行工作流任务

                 工作流定义
                 Azkaban使用Properties文件定义工作流
                 Oozie使用XML文件定义工作流     

                 工作流传参
                 Azkaban支持直接传参,例如${input}
                 Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}

                 定时执行
                 Azkaban的定时执行任务是基于时间的
                 Oozie的定时执行任务基于时间和输入数据

                 资源管理
                 Azkaban有较严格的权限控制,如用户对工作流进行读/写/执行等操作
                 Oozie暂无严格的权限控制

                 工作流执行
                 Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)
Oozie作为工作流服务器运行,支持多用户和多工作流

                 工作流管理
                 Azkaban支持浏览器以及ajax方式操作工作流
                 Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流

 二、Azkaban介绍

        Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
        它有如下功能特点:
               Web用户界面
               方便上传工作流
               方便设置任务之间的关系
               调度工作流
               认证/授权(权限的工作)
               能够杀死并重新启动工作流
               模块化和可插拔的插件机制
               项目工作区
               工作流和任务的日志记录和审计

        Azkaban安装部署:

        (1) 准备工作

Azkaban Web服务器
azkaban-web-server-2.5.0.tar.gz
Azkaban执行服务器 
azkaban-executor-server-2.5.0.tar.gz
MySQL
目前azkaban的2.5版只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 123.
下载地址:http://azkaban.github.io/downloads.html

        (2) 安装

             将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行,在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序

             azkaban web服务器安装:

#上传解压azkaban-web-server-2.5.0.tar.gz
命令:
Alt+p
put *.gz

mkdir azkaban
mv azkaban-* ./azkaban
cd azkaban/
tar -zxvf azkaban-web-server-2.5.0.tar.gz


#将解压后的azkaban-web-server-2.5.0重新命名 az-server
命令:
mv azkaban-web-2.5.0    az-server

             azkaban 执行服器安装:

#解压azkaban-executor-server-2.5.0.tar.gz
命令:
tar -zxvf azkaban-executor-server-2.5.0.tar.gz
#将解压后的azkaban-executor-server-2.5.0重新命名 az-executor
命令:
mv azkaban-executor-2.5.0 az-executor

             azkaban脚本导入

解压: azkaban-sql-script-2.5.0.tar.gz
命令:tar -zxvf azkaban-sql-script-2.5.0.tar.gz
将解压后的mysql 脚本,导入到mysql中:
进入mysql
mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /root/azkaban-2.5.0/create-all-sql-2.5.0.sql;

             创建SSL配置

[hadoop@centos-aaron-h1 azkaban]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA
输入密钥库口令:
再次输入新口令:
您的名字与姓氏是什么?
  [Unknown]:  aaron
您的组织单位名称是什么?
  [Unknown]:  empire
您的组织名称是什么?
  [Unknown]:  empire
您所在的城市或区域名称是什么?
  [Unknown]:  shanghai
您所在的省/市/自治区名称是什么?
  [Unknown]:  shanghai
该单位的双字母国家/地区代码是什么?
  [Unknown]:  cn
CN=aaron, OU=empire, O=empire, L=shanghai, ST=shanghai, C=cn是否正确?
  [否]:  y

输入 <jetty> 的密钥口令
        (如果和密钥库口令相同, 按回车): 

             完成上述工作后,将在当前目录生成 keystore 证书文件,将keystore 考贝到 azkaban web服务器根目录中.如:cp keystore az-server

             配置文件
             注:先配置好服务器节点上的时区
                   1、先生成时区配置文件Asia/Shanghai,用交互式命令 tzselect 即可
                   2、拷贝该时区文件,覆盖系统本地时区配置

sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
sudo date -s '2019-03-07 23:39:46'  
#将时间写入硬件,重启后可也可以生效
sudo sudo hwclock -w

             azkaban web服务器配置
                   进入azkaban web服务器安装目录 conf目录
                   修改azkaban.properties文件
                   命令vi azkaban.properties
                   内容说明如下: 

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=192.168.29.131
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=123456
jetty.keypassword=123456
jetty.truststore=keystore
jetty.trustpassword=123456

# Azkaban Executor settings
executor.port=12321

# mail settings
[email protected]
mail.host=smtp.163.com
mail.user=aaron
mail.password=xxxx                                     
[email protected]
[email protected]

lockdown.create.projects=false

cache.directory=cache

             azkaban 执行服务器executor配置
                   进入执行服务器安装目录conf,修改azkaban.properties
                   vi azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=192.168.29.131
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

             用户配置
                   进入azkaban web服务器conf目录,修改azkaban-users.xml
                   vi azkaban-users.xml 增加 管理员用户

<azkaban-users>
        <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
        <user username="metrics" password="metrics" roles="metrics"/>
        <user username="admin" password="admin" roles="admin,metrics" />
        <role name="admin" permissions="ADMIN" />
        <role name="metrics" permissions="METRICS"/>
</azkaban-users>

          启动

           web服务器

             在azkaban web服务器目录下执行启动命令

             bin/azkaban-web-start.sh

             注:在web服务器根目录运行

             或者启动到后台

             nohup  bin/azkaban-web-start.sh  1>/tmp/azstd.out  2>/tmp/azerr.out &

           执行服务器

             在执行服务器目录下执行启动命令

             bin/azkaban-executor-start.sh

             注:只能要执行服务器根目录运行

            启动完成后,在浏览器(建议使用谷歌浏览器)中输入https://服务器IP地址:8443 ,即可访问azkaban服务了.在登录中输入刚才新的户用名及密码,点击 login.

 

             效果如下:

大数据教程(13.3)azkaban简介&安装-LMLPHP

   最后寄语,以上是博主本次文章的全部内容,如果大家觉得博主的文章还不错,请点赞;如果您对博主其它服务器大数据技术或者博主本人感兴趣,请关注博主博客,并且欢迎随时跟博主沟通交流。

03-08 04:42