集群容错就是HA。这次顺带也练一下hadoop的HA


环境:

centos6.5+jdk1.7+hadoop2.2.0+tachyon0.5.0+zookeeper3.4.6

hadoop 192.168.1.107

slave1 192.168.1.108

slave2 192.168.1.109

(全虚拟机)


1. 在三台机器上安装jdk,关闭SELINUX,关闭防火墙,配置SSH免密码登陆(hadoop到其他机器上的和slave1到其他机器上的),修改 hosts文件

。。。 。。。


2. 安装zookeeper

2.1 下载解压

。。。 。。。

2.2 在zookeeper目录下创建 data 目录和 logs 目录

mkdir data
mkdir logs

2.3 配置环境变量(root)

vi /etc/profile
export ZOO_HOME=/home/hadoop/zookeeper-3.4.6/
export ZOO_LOG_DIR=/home/hadoop/zookeeper-3.4.6/logs
export PATH=$PAHT:$ZOO_HOME/bin

2.4 配置zoo.cfg(从zoo_sample.cfg复制)

2.4.1 修改dataDir

dataDir=/home/hadoop/zookeeper-3.4.6/data

2.4.2 增加server

server.=hadoop::
server.=slave1::
server.=slave2::

2.5 在/home/hadoop/zookeeper-3.4.6/data 下面新增一个文件myid,内容为1

echo  > /home/hadoop/zookeeper-3.4./data/myid

2.6 把zookeeper 文件夹复制到其他节点
。。。 。。。

2.7 把slave1上的myid文件内容改为2,把slave2上的myid文件内容改为3

.。。 。。。

2.8 启动测试,查看角色(三个都要启)

zkServer.sh start
zkServer.sh status

3. 安装hadoop2.2.0
3.1 下载解压

。。。 。。。

3.2 配置环境变量

。。。 。。。

3.3 修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件中的JAVA_HOME变量

。。。 。。。

3.4 修改core-site.xml

 <configuration>
<!-- 指定hdfs的nameservice为ns1 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.2./tmp</value>
</property>
<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop:,slave1:,slave2:</value>
</property>
</configuration>

3.5 修改hdfs-site.xml

 <configuration>
<!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<!-- ns1下面有两个DataNode,分别是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>hadoop:</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>hadoop:</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>slave1:</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>slave1:</value>
</property>
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop:8485;slave1:8485;slave2:8485/ns1</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/hadoop/hadoop-2.2./journal</value>
</property>
<!-- 开启NameNode失败自动切换 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!-- 配置隔离机制 -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!-- 使用隔离机制时需要ssh免登陆 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
</configuration>

3.6 修改slaves

hadoop
slave1
slave2

3.7 修改yarn-site.xml

 <configuration>
<!-- 指定resourcemanager地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop</value>
</property>
<!-- 指定nodemanager启动时加载server的方式为shuffle server -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

3.8 修改mapred-site.xml

 <configuration>
<!-- 指定mr框架为yarn方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

3.9 把hadoop文件夹复制到其他两个节点
。。。 。。。

3.10 启动journalnode进程

sbin/hadoop-daemons.sh start journalnode

3.11 格式化 HDFS

hadoop namenode -format
scp /home/hadoop/hadoop-2.2./tmp/ hadoop@slave1:~/hadoop-2.2./

3.12 格式化 ZK

hdfs zkfc formatZK

3.13 启动 HDFS

sbin/start-dfs.sh

3.14 启动 YARN

sbin/start-yarn.sh

3.15 在 slave1 上启动 namenode

sbin/hadoop-daemon.sh start master

4 安装 tachyon
4.1 下载解压tachyon0.5.0-bin(如果hadoop版本不是2.4,则需要重新编译)

.。。 。。。

4.2 配置环境变量

。。。 。。。

4.3 修改 tachyon-env.sh

JAVA_HOME=/home/hadoop/jdk1..0_71
export JAVA="$JAVA_HOME/bin/java"
export TACHYON_MASTER_ADDRESS=hadoop
export TACHYON_UNDERFS_ADDRESS=hdfs://hadoop:9000
export TACHYON_WORKER_MEMORY_SIZE=512MB
export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem CONF_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )" export TACHYON_JAVA_OPTS+="
-Dlog4j.configuration=file:$CONF_DIR/log4j.properties
-Dtachyon.debug=false
-Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS
-Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL
-Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data
-Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers
-Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE
-Dtachyon.worker.data.folder=$TACHYON_RAM_FOLDER/tachyonworker/
-Dtachyon.master.worker.timeout.ms=
-Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS
-Dtachyon.master.journal.folder=$TACHYON_UNDERFS_ADDRESS/tachyon/journal/
-Dtachyon.master.pinlist=/pinfiles;/pindata
-Dorg.apache.jasper.compiler.disablejsr199=true
-Dtachyon.user.default.block.size.byte=
-Dtachyon.user.file.buffer.bytes=
-Dtachyon.usezookeeper=true
-Dtachyon.zookeeper.address=hadoop:,slave1:,slave2:
"

4.4 复制到其他两个节点
。。。 。。。

4.5 修改 slave1 的 MASTER 地址

JAVA_HOME=/home/hadoop/jdk1..0_71
export JAVA="$JAVA_HOME/bin/java"
export TACHYON_MASTER_ADDRESS=slave1
export TACHYON_UNDERFS_ADDRESS=hdfs://hadoop:9000
export TACHYON_WORKER_MEMORY_SIZE=512MB
export TACHYON_UNDERFS_HDFS_IMPL=org.apache.hadoop.hdfs.DistributedFileSystem CONF_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )" export TACHYON_JAVA_OPTS+="
-Dlog4j.configuration=file:$CONF_DIR/log4j.properties
-Dtachyon.debug=false
-Dtachyon.underfs.address=$TACHYON_UNDERFS_ADDRESS
-Dtachyon.underfs.hdfs.impl=$TACHYON_UNDERFS_HDFS_IMPL
-Dtachyon.data.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/data
-Dtachyon.workers.folder=$TACHYON_UNDERFS_ADDRESS/tmp/tachyon/workers
-Dtachyon.worker.memory.size=$TACHYON_WORKER_MEMORY_SIZE
-Dtachyon.worker.data.folder=$TACHYON_RAM_FOLDER/tachyonworker/
-Dtachyon.master.worker.timeout.ms=
-Dtachyon.master.hostname=$TACHYON_MASTER_ADDRESS
-Dtachyon.master.journal.folder=$TACHYON_UNDERFS_ADDRESS/tachyon/journal/
-Dtachyon.master.pinlist=/pinfiles;/pindata
-Dorg.apache.jasper.compiler.disablejsr199=true
-Dtachyon.user.default.block.size.byte=
-Dtachyon.user.file.buffer.bytes=
-Dtachyon.usezookeeper=true
-Dtachyon.zookeeper.address=hadoop:,slave1:,slave2:
"

4.6 格式化 TACHYON

tachyon format

4.7 启动 TACHYON

tachyon-start.sh all SudoMount

(在其他tachyon的教程中一般命令都是"tachyon-start.sh all Mount" ,那是因为他们都是 root 用户,非 root 用户的话则要使用 “SudoMount” ,而且三个节点上的用户都应该是 sudoer )

4.8 在 slave1 启动tachyon 的 master 进程

tachyon-start.sh start master

4.9 进程查看

[hadoop@hadoop tachyon-0.5.-bin]$ jps
DFSZKFailoverController
JournalNode
TachyonWorker
NameNode
NodeManager
QuorumPeerMain
DataNode
Jps
ResourceManager
TachyonMaster [hadoop@slave1 hadoop-2.2.]$ jps
QuorumPeerMain
DataNode
JournalNode
TachyonWorker
TachyonMaster
DFSZKFailoverController
NodeManager
Jps
NameNode [hadoop@slave2 bin]$ jps
Jps
NodeManager
QuorumPeerMain
JournalNode
DataNode
TachyonWorker

5 测试 HA

先访问 http://hadoop:19999
tachyon 集群容错-LMLPHP

杀掉 hadoop 上的 master 进程(kill -9 9106)

过几十秒后查看 http://slave1:19999

tachyon 集群容错-LMLPHP


SUCCESS

05-06 03:40