重启HA集群后,两个NameNode无缘无故挂掉,查看日志时显示错误如下:
原因:journalnode的端口是8485,默认情况下是先NameNode启动后再启动journalnode,如果在NameNode启动10s后journalnode还没有启动,就会造成NameNode挂掉
解决方法:由于服务还没有启动完成就出现了连接超时的问题,只要修改core-sit.xml中的ipc参数的值即可,将maxRetries=10改成100,当然也有可能有其他的原因造成NameNode挂掉。
<!--设置ipc参数-->
<property>
<name>ipc.client.connect.max.retries</name>
<value>1000</value>
</property>
<property>
<name>ipc.client.connect.retry.interval</name>
<value>10000</value>
</property>