hadoop - 在2个Windows 10上设置Hadoop多集群

我正在尝试在2个Windows设备之间设置多节点Hadoop集群。我正在使用Hadoop 2.9.2。
请问我该如何实现呢？

最佳答案

使用this guide在两个系统上安装open-ssh服务器。在本地计算机上生成新的SSH公共(public)和私有(private)密钥对是使用无密码的远程服务器进行身份验证的第一步。将公共(public)密钥添加到authorized_keys，并将您的主机名添加到已知主机列表。您可以通过搜索互联网找到有关如何执行此操作的指南。
2.将您的hadoop主机和从机ips添加到主机文件中。打开“C:\ Windows \ System32 \ drivers \ etc \ hosts”
并添加

your-master-ip hadoopMaster
your-salve-ip hadoopSlave

您可以在配置文件中使用这些名称。
与Linux系统非常相似，以下是在Windows上运行Hadoop集群所必须遵循的步骤:
3.首先，您需要在系统上安装Java，并且必须将JAVA_HOME添加到您的环境变量中。您可以从Oracle website下载Java并安装它。

从Apache website下载Hadoop二进制文件并将其解压缩。

请注意，文件夹名称中不应包含空格，否则可能会遇到问题。

接下来，您必须将Java和Hadoop home和bin文件夹添加到您的环境变量中。只需打开开始菜单并键入“环境变量”，然后从控制面板中打开“编辑环境变量”窗口。

添加

HADOOP_HOME=”root of your hadoop extracted folder\hadoop-2.9.2″
HADOOP_BIN=”root of hadoop extracted folder\hadoop-2.9.2\bin”
JAVA_HOME=<Root of your JDK installation>”

编辑您的“路径”环境变量，并将％JAVA_HOME％，％HADOOP_HOME％，％HADOOP_BIN％，％HADOOP_HOME％/ sbin分别添加到PATH。

，您可以通过打开cmd并输入以下内容来验证添加内容:

echo %HADOOP_HOME%
echo %HADOOP_BIN%
echo %PATH%

配置HADOOP:
10.打开“您的hadoop root \ hadoop-2.9.2 \ etc \ hadoop \ hadoop-env.cmd”，然后在文件底部添加以下几行:

set HADOOP_PREFIX=%HADOOP_HOME%
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

11.打开“您的hadoop根\ hadoop-2.9.2 \ etc \ hadoop \ hdfs-site.xml”并添加以下内容:

<property>
<name>dfs.name.dir</name>
<value>your desired address</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>your desired address</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.datanode.use.datanode.hostname</name>
<value>false</value>
</property>

<property>
<name>dfs.namenode.datanode.registration.ip-hostname-check</name>
<value>false</value>
</property>

<property>
<name>dfs.namenode.http-address</name>
<value>hadoopMaster:50070</value>
<description>Your NameNode hostname for http access.</description>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoopMaster:50090</value>
<description>Your Secondary NameNode hostname for http access.</description>
</property>

编辑您的core-site.xml并添加:

<property>
<name>fs.default.name</name>
<value>hdfs://hadoopMaster:9000</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>your-temp-directory</value>
<description>A base for other temporary directories.</description>
</property>

打开“hadoop \ hadoop-2.9.2 \ etc \ hadoop \ mapred-site.xml的根目录”，然后在标签内添加以下内容。如果看不到mapred-site.xml，请打开mapred-site.xml.template文件并将其重命名为mapred-site.xml

<property>
<name>mapred.job.tracker</name>
<value>hadoopMaster:9001</value>
</property>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

14.编辑yarn-site.xml并添加:

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
<description>Long running service which executes on Node Manager(s) and provides MapReduce Sort and Shuffle functionality.</description>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
<description>Enable log aggregation so application logs are moved onto hdfs and are viewable via web ui after the application completed. The default location on hdfs is '/log' and can be changed via yarn.nodemanager.remote-app-log-dir property</description>
</property>

<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoopMaster:8030</value>
</property>

<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoopMaster:8031</value>
</property>

<property>
<name>yarn.resourcemanager.address</name>
<value>hadoopMaster:8032</value>
</property>

<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoopMaster:8033</value>
</property>

<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoopMaster:8088</value>
</property>

在“root-hadoop-directory / hadoop / bin”的从属文件中，添加

hadoopSlave

也在您的从属节点上执行这些步骤。

打开cmd和cd到hadoop目录中的sbin文件夹。
18，格式化你的nameNode

hadoop namenode -format

19.运行以下命令:

start-dfs.sh

然后运行:

start-yarn.sh

关于hadoop - 在2个Windows 10上设置Hadoop多集群，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/64130723/