MHA 官方网址

Manager : https://github.com/yoshinorim/mha4mysql-manager
Node : https://github.com/yoshinorim/mha4mysql-node

MHA 工作原理

主库宕机处理过程
1. 监控节点 (通过配置文件获取所有节点信息)
   系统,网络,SSH连接性
   主从状态,重点是主库

2. 选主
(1) 如果判断从库(position或者GTID),数据有差异,最接近于 Master 的 slave,成为备选主
(2) 如果判断从库(position或者GTID),数据一致,按照配置文件顺序,选主.
(3) 如果设定有权重(candidate_master=1),按照权重强制指定备选主.
    1. 默认情况下如果一个 slave 落后 master 100M的 relay logs 的话,即使有权重,也会失效.
    2. 如果 check_repl_delay=0 的话,即使落后很多日志,也强制选择其为备选主

3. 数据补偿
(1) 当SSH能连接,从库对比主库 GTID 或者 position 号,立即将二进制日志保存至各个从节点并且应用( save_binary_logs )
(2) 当SSH不能连接, 对比从库之间的relaylog的差异( apply_diff_relay_logs )

4. Failover
将故障节点踢出集群
将备选主进行身份切换,对外提供服务
其余从库和新主库确认新的主从关系

5. 应用透明(VIP)
6. 故障切换通知(send_reprt)
7. 二次数据补偿(binlog_server)

注意:从库需要开启 binlog 日志

MHA 主库宕机接管规则

1. 所有从节点日志都是一致的,默认会以配置文件的顺序去选择一个新主。
2. 从节点日志不一致,自动选择最接近于主库的从库
3. 如果对于某节点设定了权重(candidate_master=1),权重节点会优先选择。
但是此节点日志量落后主库100M日志的话,也不会被选择。可以配合check_repl_delay=0,关闭日志量的检查,强制选择候选节点。
# Manager 工具包主要包括以下几个工具:
masterha_manger             启动MHA
masterha_check_ssh          检查MHA的SSH配置状况
masterha_check_repl         检查MySQL复制状况
masterha_master_monitor     检测master是否宕机
masterha_check_status       检测当前MHA运行状态
masterha_master_switch      控制故障转移(自动或者手动)
masterha_conf_host          添加或删除配置的server信息

# Node 工具包主要包括以下几个工具:
这些工具通常由MHA Manager的脚本触发,无需人为操作
save_binary_logs            保存和复制master的二进制日志
apply_diff_relay_logs       识别差异的中继日志事件并将其差异的事件应用于其他的
purge_relay_logs            清除中继日志(不会阻塞SQL线程)

MHA环境搭建

系统环境: CentOS 7.4 64bit 最小安装版本
MySQL软件版本: mysql-community-client-5.7.28-1.el7.x86_64.rpm
              mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
              mysql-community-common-5.7.28-1.el7.x86_64.rpm
              mysql-community-server-5.7.28-1.el7.x86_64.rpm
              mysql-community-libs-5.7.28-1.el7.x86_64.rpm
MHA软件: mha4mysql-node-0.58-0.el7.centos.noarch.rpm
        mha4mysql-manager-0.58-0.el7.centos.noarch.rpm 
db1192.168.31.205主库,HMA node
db2192.168.31.206从库,HMA node
db3192.168.31.207从库,HMA master,node

如果是编译安装的 MySQL 需要建立命令的软连接,我这里使用的是官方的 rpm 包安装,不需要更改。

ln -s /usr/local/mysql/bin/mysqlbinlog /usr/bin/mysqlbinlog
ln -s /usr/local/mysql/bin/mysql /usr/bin/mysql
# db1:
ssh-keygen -t rsa
cd /root/.ssh/
mv id_rsa.pub authorized_keys
scp -r /root/.ssh [email protected]:/root
scp -r /root/.ssh [email protected]:/root
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date

# db2:
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date

# db3:
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date

所有节点都需要安装 HMA node 软件

yum install perl-DBD-MySQL -y
rpm -ivh /iba/software/mha4mysql-node-0.58-0.el7.centos.noarch.rpm

db3 安装 HMA manager 软件

yum install -y epel-release
yum install -y perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes
rpm -ivh /iba/software/mha4mysql-manager-0.58-0.el7.centos.noarch.rpm 

在db1主库中创建MHA专用监控用户

grant all privileges on *.* to mha@'192.168.31.%' identified by 'Mha_123456';
flush privileges;

MHA manager 配置文件(db3)

创建配置文件目录

mkdir -p /etc/mha

创建日志目录

mkdir -p /var/log/mha/app1

编辑mha配置文件

vi /etc/mha/app1.cnf
[server default]
manager_log=/var/log/mha/app1/manager
manager_workdir=/var/log/mha/app1
master_binlog_dir=/var/lib/mysql
user=mha
password=Mha_123456
ping_interval=2
repl_user=rep
repl_password=Rep_123456
ssh_user=root
[server1]
hostname=192.168.31.205
port=3306
[server2]
hostname=192.168.31.206
port=3306
[server3]
hostname=192.168.31.207
port=3306

MHA manager 额外参数介绍

# 设置监控主库,发送ping包的时间间隔,尝试三次没有回应的时候自动进行failover
ping_interval=1
# 设置为候选master,如果设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个主库不是集群中事件最新的slave
candidate_master=1
# 默认情况下如果一个slave落后master 100M的relay logs的话,MHA将不会选择该slave作为一个新的master,因为对于这个slave的恢复需要花费很长时间,通过设置check_repl_delay=0,
# MHA触发切换在选择一个新的master的时候将会忽略复制延时,这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master
check_repl_delay=0

验证SSH通信(db3)

masterha_check_ssh  --conf=/etc/mha/app1.cnf

验证 MySQL 主从状态(db3)

masterha_check_repl  --conf=/etc/mha/app1.cnf

启动 MHA manager (db3):

nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover  < /dev/null> /var/log/mha/app1/manager.log 2>&1 &

检查 MHA 工作状态(db3):

masterha_check_status --conf=/etc/mha/app1.cnf

模拟主库故障

停止主库(db1):

systemctl stop mysqld 

观察 MHA manager 日志(db3)

# 末尾必须显示successfully,才算正常切换成功。
tail -f /var/log/mha/app1/manager

修复原主库(db1)

# 启动 mysqld
systemctl start mysqld

# 登录数据库
mysql -uroot -pKlvchen_123

# 启动 slave
change master to master_host='192.168.31.206' ,master_user='rep',master_password='Rep_123456',master_auto_position=1;
start slave;

MHA 修复配置文件及启动(db3)

vi /etc/mha/app1.cnf
# 加回去
[server1]
hostname=192.168.31.205
port=3306

# 启动 MHA manager
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover  < /dev/null> /var/log/mha/app1/manager.log 2>&1 &

检查(db3)

masterha_check_status --conf=/etc/mha/app1.cnf
12-28 11:01