1.停掉外部接入服务;

2 NameNode Metadata备份;

2.1 备份fsimage数据,(该操作适用HA和非HA的NameNode),使用如下命令进行备份:

[root@cdh01 dfs]# mkdir nn_metadata_back

[root@cdh01 dfs]# hdfs dfsadmin -fetchImage nn_metadata_back/

[root@cdh01 dfs]# ll nn_metadata_back

2.2 备份edits数据(该操作适用非HA的NameNode),使用如下命令备份:

[root@cdh01 current]# sudo -u hdfs hdfs dfsadmin –rollEdits

2.3 拷贝edits日志到备份目录(该操作适用非HA的NameNode),使用如下命令进行备份

在CM上找到NameNode的dfs.name.dir配置目录

将/data/dfs/nn/current目录下的edits_0*开头的文件拷贝至备份目录

[root@cdh01 dfs]# mkdir nn_metadata_back/edits

[root@cdh01 dfs]# cp /data/dfs/nn/current/edits_0* nn_metadata_back/edits/

[root@cdh01 dfs]#

2.4备份VERSION文件(该操作适用于HA和非HA的NameNode),这个文件不需要定期备份,因为它不会更改,但该文件非常重要,因为文件中包含了clusterID一级其它详细信息

[root@cdh01 dfs]# cp /data/dfs/nn/current/VERSION nn_metadata_back/

[root@cdh01 dfs]# ll nn_metadata_back/

total 1852

drwxr-xr-x 2 root root    831488 Oct 17 10:49 edits

-rw-r--r-- 1 root root     1051656 Oct 17 10:42 fsimage_0000000000007076989

drwx------ 3 root root     4096 Oct 17 14:06 snn

-rw-r--r-- 1 root root     173 Oct 17 10:49 VERSION

3  NameNode Metadata恢复;

3.1通过CM先将uc机器上namenode删除,然后在ali机器上加一个namenode节点;

3.2 通过CM为新加的节点添加NameNode角色;

3.3    检查NameNode的dfs.name.dir配置的目录在服务器上是否存在,如果不存在则需要手动的创建并确保目录属主为hdfs:hdfs,且父目录权限为700;

[root@cdh01 ~]# mkdir -p /data/disk1/dfs/nn/

[root@cdh01 ~]# chown hdfs:hadoop /data/disk1/dfs/nn

[root@cdh01 ~]# chmod 700 /data/disk1/dfs/nn

3.4    将VERSION和最后备份的fsimage文件复制到/data/disk1/dfs/nn/current目录下

[root@cdh01 dfs]# mkdir -p /data/disk1/dfs/nn/current
[root@cdh01 dfs]# cp /data/disk1/nn_metadata_back/VERSION /data/disk1/dfs/nn/current/
[root@cdh01 dfs]# cp /data/disk1/nn_metadata_back/fsimage_0000000000004483704 /data/disk1/dfs/nn/current/
[root@cdh01 dfs]# cp /data/disk1/nn_metadata_back/edits/* /data/disk1/dfs/nn/current/
[root@cdh01 dfs]# chown -R hdfs:hdfs /data/disk1/dfs/nn/current/

3. 5 为fsimage文件创建md5校验

[root@cdh01 dfs]# cd nn/current/

[root@cdh01 current]# md5sum fsimage_0000000000004483704 > fsimage_0000000000004483704.md5
[root@cdh01 current]# ll fsimage_0000000000004483704*

4  启动namenode,验证服务;

5  迁移secondary namenode要简单些,只需迁移整个snn目录到新节点,注意文件权限,然后通过cm删除uc机器上snn,添加新的snn到ali节点;

*****最后在重启集群后,可能会发现hbase master节点起不来,或者不能切换为active状态,可以参考以下文章:

https://community.hortonworks.com/questions/33140/hbase-master-fails-to-start.html

05-11 09:41