Ubuntu 12.10 +Hadoop 1.2.1版本集群配置

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置configurationpropertynamenamevaluevaluepropertypropertynamenamevaluevaluepropertyconfigurationconfigurationpropertynamenamevaluevaluepropertypropertynamenamevaluevaluepropertyconfigurationconfigurationpropertynamenamevaluevaluedescriptiondescriptionpropertypropertynamenamevaluevaluedescriptiondescriptionpropertypropertynamenamevaluevaluepropertyconfiguration>

dfs.name.dir是NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。

dfs.replication是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错。

此处的name1和data1等目录不能提前创建，如果提前创建会出问题

5.5配置master和slaves主从节点

配置conf/masters和conf/slaves来设置主从结点，注意最好使用主机名，并且保证机器之间通过主机名可以互相访问，每个主机名一行。

vi masters：
输入：

node1

vi slaves：

输入：
node2
node3

配置结束，把配置好的hadoop文件夹拷贝到其他集群的机器中，并且保证上面的配置对于其他机器而言正确，

[java] view plain copy print ?

scp -r /home/hadoop/hadoop-1.2.1 root@node2:/home/hadoop/ #输入node2的root密码即可传输，如果java安装路径不一样，需要修改conf/hadoop-env.sh

安装结束

四、Hadoop启动与测试

1、格式化一个新的分布式文件系统

[java] view plain copy print ?

cd hadoop-1.2.1
bin/hadoop namenode -format #格式化文件系统

成功的情况下输入一下（我的hadoop已经使用，不想重新格式化选择了No）
Ubuntu 12.10 +Hadoop 1.2.1版本集群配置-LMLPHP

2、启动所有节点

[java] view plain copy print ?

bin/start-all.sh

3、查看集群的状态：

[java] view plain copy print ?

hadoop dfsadmin -report

4 Hadoop测试

浏览NameNode和JobTracker的网络接口，它们的地址默认为：

NameNode - http://node1:50070/
JobTracker - http://node1:50030/

要想检查守护进程是否正在运行，可以使用 jps 命令（这是用于 JVM 进程的ps 实用程序）。这个命令列出 5 个守护进程及其进程标识符。

将输入文件拷贝到分布式文件系统：

[java] view plain copy print ?

bin/hadoop fs -mkdir input #创建input目录
bin/hadoop fs -put conf/core-site.xml input #拷贝文件到input目录
bin/hadoop jar hadoop-examples-1.2.1.jar grep input output 'dfs[a-z]' #使用Hadoop运行示例

到此为止，hadoop已经配置完成，当然在配置的过程中会遇到各种错误，主要都是权限问题和网络ip配置问题，请注意。

五 Hadoop一些常用的操作命令

1、hdfs常用操作：

hadoopdfs -ls 列出HDFS下的文件
hadoop dfs -ls in 列出HDFS下某个文档中的文件
hadoop dfs -put test1.txt test 上传文件到指定目录并且重新命名，只有所有的DataNode都接收完数据才算成功
hadoop dfs -get in getin 从HDFS获取文件并且重新命名为getin，同put一样可操作文件也可操作目录
hadoop dfs -rmr out 删除指定文件从HDFS上
hadoop dfs -cat in/* 查看HDFS上in目录的内容
hadoop dfsadmin -report 查看HDFS的基本统计信息，结果如下
hadoop dfsadmin -safemode leave 退出安全模式
hadoop dfsadmin -safemode enter 进入安全模式

2、负载均衡

start-balancer.sh，可以使DataNode节点上选择策略重新平衡DataNode上的数据块的分布

祝大家能够顺利配置好hadoop运行环境，有问题可以留言一起探讨。

zzjlzx

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置