前面几章节，我们已经熟悉了到docker的基本操作，准备工作已经完成，现在开始构建真正的大数据集群。

硬件准备

集群详细规划

hadoop1	nameNode,zk,HRegionserver
hadoop2	dataNode,zk,Worker
hadoop3	dataNode,zk,HRegionserver,Worker
hadoop4	dataNode,HMaster,Worker
hadoop5	dataNode,Master,HRegionserver

上表只是列出了hadoop，zk，hbase，spark在各个机器上的服务分布，这几个是整个集群中比较占资源的服务，后续的kafka等服务，就可以根据情况调整。

备注，集群每台机都建立用户hadoop，而且所有的软件环境安装都是基于hadoop用户。

我这里使用的方法是预先在window机器中下载好全部所需然后传到宿主机上，因为老觉得宿主机外网的速度不够。分别下载为：,,,,

dockerfile如下：

build centos基础镜像：

需要说明的是，一开始的时候我们的基础centos镜像是7，但是在后续使用的时候会报

然后build：

整个文件目录如下：

buid成功之后，我们大数据集群的最基础的镜像就已经配置完成，击中包括jdk、scala、hadoop、hbase、zookeeper、spark的目录以及环境变量。需要说明的是在最后有将用户切换到root，因为后面的shell脚本中需要启动某些服务，只有root有权限。

创建shells文件夹，用于存放shell脚本，在shells文件夹下创建hadoop_hosts文件，内容如下：

创建shell脚本，vim create_hadoop.sh:

这个脚本中包含创建容器、使用pipework设置静态ip等，启动sshd服务等一系列的操作。脚本运行完成之后先前规划好的大数据集群的基础软件和环境就已经准备完毕，但是现在还只是一个壳，距离真正的大数据集群运行起来还有一段距离，需要对各个组件进行各自需要的一些配置。