女朋友:你上次教我搭建伪分布式,我已经会搭建啦。只用了一台机器就搞定了呀,想学完全分布式的搭建。
我:可以呀,完全分布式可是开发当中的重点哦,实现一个完全分布式我们先就不能只准备一台机器了,要多几台虚拟机来实现一个真正的集群。让我们开始吧,先看看思维导图,先把流程弄清楚。
在上面四篇文章我们已经把基本环境搭建好了,也进行了伪分布式等相应的案例演示,下面我们将进入真正的完全分布式的环境搭建,并运行实例,建议先看上面四篇文章在进行操作。看一百遍,不如手过一遍。快点拿起你的键盘和我一起操作起来吧。
分析:
1)准备3台客户机(关闭防火墙、静态ip、主机名称)
2)安装JDK
3)配置环境变量
4)安装Hadoop
5)配置环境变量
6)配置集群
7)单点启动
8)配置ssh
9)群起并测试集群
(d) 将hadoop101中/etc/profile文件拷贝到hadoop102的/etc/profile上。
(e) 将hadoop101中/etc/profile文件拷贝到hadoop103的/etc/profile上。
(f) 将hadoop101中/etc/profile文件拷贝到hadoop104的/etc/profile上。
(1)基本语法
-r | 递归 |
-v | 显示复制过程 |
-l | 拷贝符号连接 |
(c)调用脚本形式:xsync 文件名称
注意:如果将xsync放到/home/hadoop/bin
目录下仍然不能实现全局使用,可以将xsync移动到/usr/local/bin
目录下。
1.集群部署规划
在该文件中编写如下配置
(2)HDFS配置文件
配置hadoop-env.sh
配置hdfs-site.xml
在该文件中编写如下配置
(3)YARN配置文件
配置yarn-env.sh
配置yarn-site.xml
在该文件中增加如下配置
(4)MapReduce配置文件
配置mapred-env.sh
三个机器删除data/logs
(2)在hadoop102上启动NameNode
1. 配置ssh
(1)基本语法
ssh另一台电脑的ip地址
(2)ssh连接时出现Host key verification failed的解决方法
2. 无密钥配置
(1)免密登录原理,如图所示
(2)生成公钥和私钥:
然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
注意:
还需要在hadoop102上采用root账号,配置一下无密登录到hadoop102、hadoop103、hadoop104;
还需要在hadoop103上采用hadoop账号配置一下无密登录到hadoop102、hadoop103、hadoop104
服务器上。
步骤一样
3. ssh文件夹下(~/.ssh)的文件功能解释
id_rsa | 生成的私钥 |
id_rsa.pub | 生成的公钥 |
authorized_keys | 存放授权过得无密登录服务器公钥 |
1.配置slaves
在该文件中增加如下内容:
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件
(3)启动YARN
注意:NameNode和ResourceManger
如果不是同一台机器,不能在NameNode
上启动 YARN,应该在ResouceManager
所在的机器上启动YARN。
(4)Web端查看
(a)浏览器中输入:http://192.168.88.102:50070
(b)查看信息,如图所示。
(1)上传文件到集群
上传小文件
上传大文件
(2)上传文件后查看文件存放在什么位置
(a)查看HDFS文件存储路径
(b)查看HDFS在磁盘存储文件内容
(3)拼接
集群启动/停止方式总结
1. 各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
(2)启动/停止YARN
2. 各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
(2)整体启动/停止YARN
本文分享自微信公众号 - 五角钱的程序员(xianglin965)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。