redis系列sentinel

1  sentinel

Redis Sentinel(哨兵)是用于监控redis集群中Master和Slave状态的工具,其已经被集成在redis2.4+的版本中。 包括Monitor(监控)、Notification(通知)和Automatic failover(自动故障迁移)和等主要功能。

1.1  监控

Sentinel 会不断地检查你的主服务器和从服务器是否运作正常。

1.2  通知

当被监控的某个Redis 服务器出现问题时, Sentinel 可以通过API 向管理员或者其他应用程序发送通知。

1.3  自动故障迁移

当一个主服务器不能正常工作时, Sentinel 会开始一次自动故障迁移操作,它会将失效主服务器的其中一个从服务器升级为新的主服务器, 并让失效主服务器的其他从服务器改为复制新的主服务器; 当客户端试图连接失效的主服务器时, 集群也会向客户端返回新主服务器的地址, 使得集群可以使用新主服务器代替失效服务器。

1.4  Sentinel分布式系统

Redis Sentinel 是一个分布式系统, 你可以在一个架构中运行多个 Sentinel 进程(progress),这些进程使用流言协议(gossip protocols)来接收关于主服务器是否下线的信息, 并使用投票协议(agreement protocols)来决定是否执行自动故障迁移,以及选择哪个从服务器作为新的主服务器。

虽然RedisSentinel释出为一个单独的可执行文件redis-sentinel,但实际上它只是一个运行在特殊模式下的Redis服务器,你可以在启动一个普通 Redis 服务器时通过给定 --sentinel 选项来启动Redis Sentinel。

命令如下:

$ ./src/redis-server  --sentinel

2  Redis Sentinel工作方式

1、每个Sentinel以每秒钟一次的频率向它所知的Master,Slave以及其他 Sentinel 实例发送一个 PING 命令。

2、如果一个Sentinel实例距离最后一次有效回复 PING 命令的时间超过 down-after-milliseconds 选项所指定的值, 则这个实例会被 Sentinel 标记为主观下线。

3、如果一个Master被标记为主观下线,则正在监视这个Master的所有Sentinel要以每秒一次的频率确认Master的确进入了主观下线状态。

4、当有足够数量的 Sentinel(大于等于配置文件指定的值)在指定的时间范围内确认Master的确进入了主观下线状态,则Master会被标记为客观下线。

5、在一般情况下, 每个Sentinel会以每 10 秒一次的频率向它已知的所有Master,Slave发送 INFO 命令。

6、当Master被Sentinel 标记为客观下线时,Sentinel向下线的Master的所有Slave发送 INFO命令的频率会从10秒一次改为每秒一次。

7、若没有足够数量的Sentinel同意Master已经下线, Master的客观下线状态就会被移除。

8、若Master重新向Sentinel的PING命令返回有效回复, Master的主观下线状态就会被移除。

3  主观下线和客观下线

3.1  主观下线

主观下线(SubjectivelyDown)简称 SDOWN,指的是当前Sentinel实例对某个redis服务器做出的下线判断。

3.2  客观下线

客观下线(ObjectivelyDown)简称ODOWN,指的是多个Sentinel实例在对Master Server做出SDOWN判断,并且通过SENTINEL is-master-down-by-addr命令互相交流之后,得出的Master Server下线判断,然后开启failover(故障迁移)。

3.3  SDOWN和ODOWN比较

1、SDOWN适合于Master和Slave,只要一个 Sentinel 发现Master进入了ODOWN,这个Sentinel就可能会被其他Sentinel推选出,并对下线的主服务器执行自动故障迁移操作。

2、ODOWN只适用于Master,对于Slave的Redis实例,Sentinel在将它们判断为下线前不需要进行协商,所以Slave的Sentinel永远不会达到ODOWN。

4  sentinel配置和日志

4.1  sentinel配置说明

sentinel配置的配置项如下:

1、port 16379              

#指定sentinel端口号

2、daemonize yes          

#是不是守护进程方式启动

3、sentinel monitor mastercache 10.1.51.2486379 2

# mastercache来表示给要监控的redis server

# 10.1.51.248表示IP地址

# 6379表示端口号

# 2表示两个sentinel才能判断为主管下线才能客观下线

4、sentinel down-after-milliseconds mastercache10000

# 30000表示向master发出ping,最大响应时间,如果超过则认为主观下线。

5、sentinel parallel-syncs mastercache1

# 在进行故障转移时,运行多少个slave进行数据备份同步(越少越快)

6、sentinel failover-timeout mastercache30000

# 出现failover时下一个sentinel与上一个sentinel对同一个master监测的时间间隔

       7、pidfile"/data/ sentinel/sentinel.pid"

       # 当以守护进程启动的时候进程pid保存的文件

       8、loglevelnotice

       # 日志级别(debug、verbose、notice、warning)

       9、logfile"/data/sentinel/sentinel.log"

       # 日志的保存文件

4.2  sentinel日志

1、+reset-master

#主服务器已被重置

2、+slave

#一个新的从服务器已经被 Sentinel 识别并关联。

3、+failover-state-reconf-slaves

#故障转移状态切换到了reconf-slaves 状态。

4、+failover-detected

#另一个Sentinel开始了一次故障转移操作,或者一个从服务器转换成了主服务器。

5、+slave-reconf-sent

#领头(leader)的 Sentinel 向实例发送了SLAVEOF命令,为实例设置新的主服务器。

6、+slave-reconf-inprog

#实例正在将自己设置为指定主服务器的从服务器,但相应的同步过程仍未完成。

7、+slave-reconf-done

#从服务器已经成功完成对新主服务器的同步。

8、-dup-sentinel

#对给定主服务器进行监视的一个或多个Sentinel已经因为重复出现而被移除,

#当Sentinel实例重启的时候,就会出现这种情况。

9、+sentinel

#一个监视给定主服务器的新Sentinel已经被识别并添加。

10、+sdown

#给定的实例现在处于主观下线状态。

11、-sdown

#给定的实例已经不再处于主观下线状态。

12、+odown

#给定的实例现在处于客观下线状态。

13、-odown

#给定的实例已经不再处于客观下线状态。

14、+new-epoch

#当前的纪元(epoch)已经被更新。

15、+try-failover

#一个新的故障迁移操作正在执行中,

#等待被大多数Sentinel选中(waiting to be elected by the majority)。

16、+elected-leader

#赢得指定纪元的选举,可以进行故障迁移操作了。

17、+failover-state-select-slave

#故障转移操作现在处于select-slave状态

# Sentinel正在寻找可以升级为主服务器的从服务器。

18、no-good-slave

#Sentinel 操作未能找到适合进行升级的从服务器。

#Sentinel 会在一段时间之后再次尝试寻找合适的从服务器来进行升级,

#又或者直接放弃执行故障转移操作。

19、selected-slave

#Sentinel顺利找到适合进行升级的从服务器。

20、failover-state-send-slaveof-noone

#Sentinel正在将指定的从服务器升级为主服务器,等待升级功能完成。

21、failover-end-for-timeout

#故障转移因为超时而中止,不过最终所有从服务器都会开始复制新的主服务器。

22、failover-end

#故障转移操作顺利完成。所有从服务器都开始复制新的主服务器了。

23、+switch-master

#配置变更,主服务器的 IP 和地址已经改变。 这是绝大多数外部用户都关心的信息。

24、+tilt

#进入 tilt 模式。

25、-tilt

#退出 tilt 模式。

5  设置开机启动

再启动项中增加启动命令

echo"/redis/src/redis-sentinel /redis/sentinel.conf" >>/etc/rc.local

6  redis主从配置

生产环境主从最好部署到不同的服务器上,这里我们测试可以部署到同一个服务器上,用不同的端口测试。

10.1.51.248:8991 作为主服务器

10.1.51.248:8992 作为从服务器

10.1.51.248:8991->10.1.51.248:8992 (主->从)

       新建两个目录redis-3.2.8_8991和redis-3.2.8_8992

6.1  在10.1.51.248:8991配置redis.conf文件

       ##监听端口

port 8991           

##绑定ip

bind 10.1.51.248        

## client 端空闲断开连接的时间

timeout 0           

##日志记录级别,默认是notice,我这边使用warning,是为了监控日志方便。

loglevel warning

## 使用warning后,只有发生告警才会产生日志,这对于通过判断日志文件是否为空来监控报警非常方便。

logfile "/data/redis_8991/redis.log"

##默认是0,也就是只用1 个db,我这边设置成16,方便多个应用使用同一个redis server。

databases 0    

##使用select n 命令可以确认使用的redis db ,这样不同的应用即使使用相同的key也不会有问题。

##下面是SNAPSHOTTING持久化方式的策略。

##为了保证数据相对安全,在下面的设置中,更改越频繁,SNAPSHOTTING越频繁,

##也就是说,压力越大,反而花在持久化上的资源会越多。

##所以我选择了master-slave模式,并在master关掉了SNAPSHOTTING。

save 900 1     #在900秒之内,redis至少发生1次修改则redis抓快照到磁盘

save 300 10    #在300秒之内,redis至少发生100次修改则redis抓快照到磁盘

save 60 10000  #在60秒之内,redis至少发生10000次修改则redis抓快照到磁盘

stop-writes-on-bgsave-error yes

rdbcompression yes   ##使用压缩

rdbchecksum yes

dbfilename "dump.rdb"

dir "/data/redis_8991"

 

## replication 设置

slave-serve-stale-data yes

slave-read-only yes

slave-priority 100

 

###LIMIT 设置

##redis最大可使用的内存量,如果使用redis SNAPSHOTTING的copy-on-write的持久会写方式,会额外的使用内存。

##为了使持久会操作不会使用系统VM,使redis服务器性能下降,建议保留redis最大使用内存的一半来留给持久化使用。

maxmemory 256mb

##使用LRU算法删除设置了过期时间的key,但如果程序写的时间没有写key的过期时间

##建议使用allkeys-lru,这样至少保证redis不会不可写入

maxmemory-policy allkeys-lru 

 

##append only mode设置

appendonly no

appendfsync everysec

no-appendfsync-on-rewrite no

auto-aof-rewrite-percentage 100

auto-aof-rewrite-min-size 64mb

lua-time-limit 5000

 

###slow log 设置

slowlog-log-slower-than 10000

slowlog-max-len 128

 

##advanced config设置,下面的设置主要是用来节省内存的

hash-max-ziplist-entries 1024

hash-max-ziplist-value 2048

list-max-ziplist-entries 512

list-max-ziplist-value 64

set-max-intset-entries 512

zset-max-ziplist-entries 128

zset-max-ziplist-value 64

activerehashing yes

 

client-output-buffer-limit normal 00 0

client-output-buffer-limit slave256mb 64mb 60

client-output-buffer-limit pubsub32mb 8mb 60

6.2  在10.1.51.248:8992配置redis.conf文件

从服务器只需要在10.1.51.248:8991的redis.conf配置上修改和增加部分设置

修改:

              port8992

logfile"/data/redis_8992/redis.log"

增加:

## slave 实例只需要配置 slaveof 即可

slaveof 10.1.51.248 8991

6.3  启动主从服务

1、先启动主服务器

redis-3.2.8_8991$ ./redis-server./redis.conf

2、启动从服务器

redis-3.2.8_8992$ ./redis-server./redis.conf

3、查看服务器是否启动正常

~$ ps -ef | grep redis

root  6177 5420  0 18:02 pts/8    00:00:00 ./redis-server 10.1.51.248:8991

root  6180 5518  1 18:02 pts/10   00:00:01 ./redis-server 10.1.51.248:8992

root  6304 6256  0 18:04 pts/9    00:00:00 grep --color=auto redis

4、查看10.1.51.248:8991的info信息

$ ./redis-cli -h 10.1.51.248 -p8991 info replication

# Replication

role:master

connected_slaves:1

slave0:ip=10.1.51.248,port=8992,state=online,offset=8431,lag=0

master_repl_offset:8431

repl_backlog_active:1

repl_backlog_size:1048576

repl_backlog_first_byte_offset:2

repl_backlog_histlen:8430

       5、查看10.1.51.248:8992的info信息

$ ./redis-cli -h 10.1.51.248 -p8992 info replication

# Replication

role:slave

master_host:10.1.51.248

master_port:8991

master_link_status:up

master_last_io_seconds_ago:6

master_sync_in_progress:0

slave_repl_offset:8501

slave_priority:100

slave_read_only:1

connected_slaves:0

master_repl_offset:0

repl_backlog_active:0

repl_backlog_size:1048576

repl_backlog_first_byte_offset:0

repl_backlog_histlen:0

7  sentinel监控master服务器

7.1 配置master的监控文件

配置master服务器到sentinel.conf中,sentinel能自动获取到slave服务器的信息。

daemonize yes

dir "/data/sentinel"

pidfile"/data/sentinel/sentinel.pid"

loglevel notice

logfile"/data/sentinel/sentinel.log"

sentinel monitor redis_3_2_8_899110.1.51.248 8991 1

sentinel down-after-millisecondsredis_3_2_8_8991 2500

sentinel parallel-syncsredis_3_2_8_8991 2

sentinel failover-timeoutredis_3_2_8_8991 10000

7.2  启动sentinel监控

$ ./redis-sentinel./sentinel_26379.conf

$ ps -ef | grep redis

root  6177    1  0 08:40 ?       00:00:47 ./redis-server 10.1.51.248:8991

root  6180    1  0 08:40 ?       00:00:46 ./redis-server 10.1.51.248:8992

root  7168    1  0 08:49 ?        00:00:00 ./redis-sentinel *:26379[sentinel]

7.3  sentinel自动故障转移

模拟故障kill掉master,sentinel会将slave提升为master。

$ ps -ef |grep redis

root  6177    1  0 08:40 ?       00:00:47 ./redis-server 10.1.51.248:8991

root  6180    1  0 08:40 ?       00:00:47 ./redis-server 10.1.51.248:8992

root  7168    1  0 08:49 ?        00:00:01 ./redis-sentinel *:26379[sentinel]

$ kill 6177

$ ps -ef|grep redis

root  6180    1  0 3月21 ?       00:00:47 ./redis-server 10.1.51.248:8992

root  7168    1  0 08:49 ?        00:00:01 ./redis-sentinel *:26379[sentinel]

查看10.1.51.248:8992的info

$ ./redis-cli -h 10.1.51.248 -p8992 info replication

# Replication

role:master

connected_slaves:0

master_repl_offset:0

repl_backlog_active:0

repl_backlog_size:1048576

repl_backlog_first_byte_offset:0

repl_backlog_histlen:0

注意:kill掉master(10.1.51.248:8991)后,slave(10.1.51.248:8992)变成master服务器了,sentinel完成自动故障转移。

查看日志

$ cat sentinel.log

09:46:31.986 # Sentinel ID isbef5250aa0e5f3c6a67486c3f130b52475dcf72b

09:46:31.986 # +monitor masterredis_3_2_8_8991 10.1.51.248 8991 quorum 1

09:46:31.987 * +slave slave10.1.51.248:8992 10.1.51.248 8992 @ redis_3_2_8_8991 10.1.51.248 8991

09:49:04.495 # +sdown masterredis_3_2_8_8991 10.1.51.248 8991

09:49:04.495 # +odown masterredis_3_2_8_8991 10.1.51.248 8991 #quorum 1/1

09:49:04.495 # +new-epoch 1

09:49:04.495 # +try-failover masterredis_3_2_8_8991 10.1.51.248 8991

09:49:04.528 # +vote-for-leaderbef5250aa0e5f3c6a67486c3f130b52475dcf72b 1

09:49:04.528 # +elected-leadermaster redis_3_2_8_8991 10.1.51.248 8991

09:49:04.528 #+failover-state-select-slave master redis_3_2_8_8991 10.1.51.248 8991

09:49:04.612 # +selected-slaveslave 10.1.51.248:8992 10.1.51.248 8992 @ redis_3_2_8_8991 10.1.51.248 8991

09:49:04.612 *+failover-state-send-slaveof-noone slave 10.1.51.248:8992 10.1.51.248 8992 @redis_3_2_8_8991 10.1.51.248 8991

09:49:04.664 *+failover-state-wait-promotion slave 10.1.51.248:8992 10.1.51.248 8992 @redis_3_2_8_8991 10.1.51.248 8991

 

 

 

 

 

 

 

 

参考链接:

https://my.oschina.net/dchuang/blog/666827

http://www.2cto.com/database/201502/377061.html

http://blog.csdn.net/vtopqx/article/details/49247285

 

09-29 08:40