Python哨兵节点_什么是哨兵结点有什么作用以及如何使用详细些谢谢啦（PASCAL语言）

A. 搞懂Redis (八) - 哨兵机制

哨兵的核心功能是主节点的自动故障转移
下图是一个典型的哨兵集群监控的逻辑图

Redis Sentinel包含了若干个Sentinel 节点，这样做也带来了两个好处：

1、对于节点的故障判断是由多个sentinel节点共同完成，这样可以有效地防止误判
2、即使个别sentinel节点不可用，整个sentinel集群依然是可用的

哨兵实现了以下功能：
1、监控：每个sentinel节点会对数据节点（Redis master/slave节点）和其余sentinel节点进行监控
2、通知：sentinel节点会将故障转移的结果通知给应用方
3、故障转移：实现slave晋升为master，并维护后续正确的主从关系
4、配置中心：在Redis sentinel模式中，客户端在初始化的时候连接的是sentinel节点集合，从中获取主节点信息

其中，监控和自动故障转移功能，使得哨兵可以及时发现主节点故障并完成转移；而配置中心和通知功能，则需要在与客户端的交互中才能体现

1、原理
监控
sentinel节点需要监控master、slave以及其他sentinel节点的状态。这一过程是通过Redis的pubsub系统实现的。Redis sentinel一共有三个定时监控任务，完成对各个节点发现和监控：

主观/客观下线

主观下线

每个sentinel节点，每隔1s会对数据节点发送ping命令做心跳检测，当这些节点超过down-after-milliseconds没有进行有效回复时，sentinel节点会对该节点做失败判定，这叫主观下线

客观下线

客观下线，是指当大多数sentinel节点都认为master节点宕机了，那这个判定就是客观的，叫客观下线。
那大多数是指什么呢？其实就是分布式协调中的quorum判定啦，大多数就是指半数。如哨兵数量是5，那大多数就是5/2+1=3个，哨兵数量是10大多数就是10/2+1=6个。
注：sentinel节点的数量至少为3个，否则不满足quorum判定条件

哨兵选举

如果发生了客观下线，那哨兵节点会选举出一个leader来进行实际的故障转移工作。Redis使用了Raft算法来实现哨兵领导者选举，大致思路如下：

故障转移
选举出的leader sentinel节点将负责故障转移，也就是进行master/slave节点的主从切换。故障转移，首先要从slave节点中筛选出一个作为新的master，主要考虑以下slave信息

注：Leader sentinel 节点，会从新的master节点那里得到一个configuration epoch，本质是个version版本号，每次主从切换的version号都必须是唯一的。其他的哨兵都是根据version来更新自己的master配置

B. 什么是哨兵结点，有什么作用，以及如何使用详细些。。。谢谢啦（PASCAL语言）

双向循环链表：

如果我们把第一个节点的prev指向最后一个节点，而把最后一个节点的next指向第一个节点，这样就形成了一个双向循环链表。

哨兵（sentinel）：

哨兵（sentinel）是个哑元节点（mmy node），可以简化边界条件，使代码更紧凑，但对速度并没有什么帮助。

在基于双向循环链表的实现中，可以设置一个哑元节点（mmy node）。这个节点，起哨兵的作用。也就是说它们并不存储任何实质的数据对象。初始时可以将哑元节点的next指向第一节点，prev指向最后一个节点。
在一个带哨兵的环形双向链表中，哨兵节点介于头和尾之间，用nil[L]来表示。可以通过next[nil[L]]来访问表头，而用prev[nil[L]]来访问表尾。同样地，表尾的next域和表头的prev域都指向nil[L]。

因为next[nil[L]]指向表头，我们可以去掉属性head[L]，把对它的引用换成对next[nil[L]]的引用。

一个空链表仅含哨兵节点，这时next[nil[L]]和prev[nil[L]]都可以设置成nil[L]。

C. redis主从和哨兵

主从复制：主节点负责写数据，从节点负责读数据，主节点定期把数据同步到从节点保证数据的一致性

a,配置主从复制方式一、新增redis6380.conf, 加入 slaveof 192.168.152.128 6379, 在6379启动完后再启6380，完成配置；
b,配置主从复制方式二、redis-server --slaveof 192.168.152.128 6379 临时生效

c,查看状态：info replication
d,断开主从复制：在slave节点，执行6380:>slaveof no one
e,断开后再变成主从复制：6380:> slaveof 192.168.152.128 6379
f,数据较重要的节点，主从复制时使用密码验证： requirepass
e, 从节点建议用只读模式slave-read-only=yes, 若从节点修改数据，主从数据不一致
h,传输延迟：主从一般部署在不同机器上，复制时存在网络延时问题，redis提供repl-disable-tcp-nodelay参数决定是否关闭TCP_NODELAY,默认为关闭
参数关闭时：无论大小都会及时发布到从节点，占带宽，适用于主从网络好的场景，
参数启用时：主节点合并所有数据成TCP包节省带宽，默认为40毫秒发一次，取决于内核，主从的同步延迟40毫秒，适用于网络环境复杂或带宽紧张，如跨机房

a)一主一从：用于主节点故障转移从节点，当主节点的“写”命令并发高且需要持久化，可以只在从节点开启AOF（主节点不需要），这样即保证了数据的安全性，也避免持久化对主节点的影响

b)一主多从：针对“读”较多的场景，“读”由多个从节点来分担，但节点越多，主节点同步到多节点的次数也越多，影响带宽，也加重主节点的稳定

c)树状主从：一主多从的缺点（主节点推送次数多压力大）可用些方案解决，主节点只推送一次数据到从节点B，再由从节点B推送到C，减轻主节点推送的压力。

redis 2.8版本以上使用psync命令完成同步，过程分“全量”与“部分”复制
全量复制：一般用于初次复制场景（第一次建立SLAVE后全量）
部分复制：网络出现问题，从节点再次连接主节点时，主节点补发缺少的数据，每次数据增量同步
心跳：主从有长连接心跳，主节点默认每10S向从节点发ping命令，repl-ping-slave-period控制发送频率

a)主从复制，若主节点出现问题，则不能提供服务，需要人工修改配置将从变主
b)主从复制主节点的写能力单机，能力有限
c)单机节点的存储能力也有限

a)主节点(master)故障，从节点slave-1端执行 slaveof no one后变成新主节点；
b)其它的节点成为新主节点的从节点，并从新节点复制数据；
c)需要人工干预，无法实现高可用。

1. 为什么要有哨兵机制？

原理：当主节点出现故障时，由Redis Sentinel自动完成故障发现和转移，并通知应用方，实现高可用性。

其实整个过程只需要一个哨兵节点来完成，首先使用Raft算法（选举算法）实现选举机制，选出一个哨兵节点来完成转移和通知

任务1：每个哨兵节点每10秒会向主节点和从节点发送info命令获取最拓扑结构图，哨兵配置时只要配置对主节点的监控即可，通过向主节点发送info，获取从节点的信息，并当有新的从节点加入时可以马上感知到

任务2：每个哨兵节点每隔2秒会向redis数据节点的指定频道上发送该哨兵节点对于主节点的判断以及当前哨兵节点的信息，同时每个哨兵节点也会订阅该频道，来了解其它哨兵节点的信息及对主节点的判断，其实就是通过消息publish和subscribe来完成的

任务3：每隔1秒每个哨兵会向主节点、从节点及其余哨兵节点发送一次ping命令做一次心跳检测，这个也是哨兵用来判断节点是否正常的重要依据

客观下线：当主观下线的节点是主节点时，此时该哨兵3节点会通过指令sentinel is-masterdown-by-addr寻求其它哨兵节点对主节点的判断，当超过quorum（选举）个数，此时哨兵节点则认为该主节点确实有问题，这样就客观下线了，大部分哨兵节点都同意下线操作，也就说是客观下线

a)每个在线的哨兵节点都可以成为领导者，当它确认（比如哨兵3）主节点下线时，会向其它哨兵发is-master-down-by-addr命令，征求判断并要求将自己设置为领导者，由领导者处理故障转移；
b)当其它哨兵收到此命令时，可以同意或者拒绝它成为领导者；
c)如果哨兵3发现自己在选举的票数大于等于num(sentinels)/2+1时，将成为领导者，如果没有超过，继续选举…………

a)由Sentinel节点定期监控发现主节点是否出现了故障

sentinel会向master发送心跳PING来确认master是否存活，如果master在“一定时间范围”内不回应PONG 或者是回复了一个错误消息，那么这个sentinel会主观地(单方面地)认为这个master已经不可用了

b) 当主节点出现故障，此时3个Sentinel节点共同选举了Sentinel3节点为领导，负载处理主节点的故障转移

c) 由Sentinel3领导者节点执行故障转移，过程和主从复制一样，但是自动执行

流程：

1. 将slave-1脱离原从节点，升级主节点，

d) 故障转移后的redis sentinel的拓扑结构图

a) 过滤掉不健康的（下线或断线），没有回复过哨兵ping响应的从节点

b) 选择salve-priority从节点优先级最高（redis.conf）的

c) 选择复制偏移量最大，指复制最完整的从节点

以3个Sentinel节点、2个从节点、1个主节点为例进行安装部署

1. 前提： 先搭好一主两从redis的主从复制，和之前的主从复制搭建一样，搭建方式如下：

A）主节点6379节点（/usr/local/bin/conf/redis6379.conf）：

修改 requirepass 12345678，注释掉#bind 127.0.0.1

B) 从节点redis6380.conf和redis6381.conf: 配置都一样

修改 requirepass 12345678 ,注释掉#bind 127.0.0.1,

加上访问主节点的密码masterauth 12345678 ,加上slaveof 192.168.152.128 6379

2. redis sentinel哨兵机制核心配置 (也是3个节点)：

将三个文件的端口改成: 26379 26380 26381

然后：sentinel monitor mymaster 192.168.152.128 6379 2 //监听主节点6379

三个配置除端口外，其它一样。

3. 哨兵其它的配置 ：只要修改每个sentinel.conf的这段配置即可：

sentinel monitor mymaster 192.168.152.128 6379 2

//监控主节点的IP地址端口，sentinel监控的master的名字叫做mymaster，2代表，当集群中有2个sentinel认为master死了时，才能真正认为该master已经不可用了

sentinel auth-pass mymaster 12345678 //sentinel连主节点的密码

sentinel config-epoch mymaster 2 //故障转移时最多可以有2从节点同时对新主节点进行数据同步

sentinel leader-epoch mymaster 2

sentinel failover-timeout mymasterA **180000 **//故障转移超时时间180s，

a,如果转移超时失败，下次转移时时间为之前的2倍；

b,从节点变主节点时，从节点执行slaveof no one命令一直失败的话，当时间超过 180S 时，则故障转移失败

c,从节点复制新主节点时间超过 180S 转移失败

sentinel down-after-milliseconds mymasterA 300000 //sentinel节点定期向主节点ping命令，当超过了 300S 时间后没有回复，可能就认定为此主节点出现故障了……

sentinel parallel-syncs mymasterA 1 //故障转移后， 1 代表每个从节点按顺序排队一个一个复制主节点数据，如果为3，指3个从节点同时并发复制主节点数据，不会影响阻塞，但存在网络和IO开销

4. 启动redis服务和sentinel服务:

a)先把之前安装的redis里面的标绿色的文件都拷贝到 usr/local/bin目录下，然后再再bin目录下新建一个conf文件夹存放配置好的redis主从配置文件和哨兵配置文件

b)启动主从复制服务，先启动主再启动从

主：./redis-server conf/redis6379.conf &

从：

./redis-server conf/redis6380.conf &

./redis-server conf/redis6381.conf &

c）启动sentinel服务:

./redis-sentinel conf/sentinel_26381.conf &

到此服务全部启动完毕

连接到6379的redis的服务，可看到6379就是主节点，他有6380和6381两个从节点

5. 测试： kill -9 6379 杀掉6379的redis服务

可以看到杀掉6379以后6380变为了主节点，6381变为了6380的从节点

重新启动6379以后变为6380的从节点

看日志是分配6380 是6381的主节点，当6379服务再启动时，已变成从节点

假设6380升级为主节点:进入6380>info replication 可以看到role:master

打开sentinel_26379.conf等三个配置，sentinel monitor mymaster 192.168.152.128 6380 2

打开redis6379.conf等三个配置, slaveof 192.168.152.128 6380,也变成了6380

注意：生产环境建议让redis Sentinel部署到不同的物理机上。

a，sentinel节点应部署在多台物理机（线上环境）

b，至少三个且奇数个sentinel节点

c，通过以上我们知道，3个sentinel可同时监控一个主节点或多个主节点

sentinel参考资料：
redis sentinel的机制与用法一： https://segmentfault.com/a/1190000002680804

redis sentinel的机制与用法二： https://segmentfault.com/a/1190000002685515

D. Redis(7):哨兵机制

        哨兵(sentinel),是redis集群架构中非常重要的一个组件，它主要的功能和特性如下：

（1）集群监控，负责监控redis master和slave进程是否正常工作。

（2）消息通知，如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员。

（3）故障转移，如果master node挂掉了，会自动转移到slave node上。

（4）配置中心，如果故障转移发生了，通知client客户端新的master地址。

（5）哨兵本身也是分布式的，哨兵以集群的方式来相互协作。

（6）要进行故障转移时会涉及到分布式选举，当大部分哨兵节点都同意时才能进行。

（7）当部分哨兵节点不能正常工作时，哨兵集群还是能够正常工作。

说到这个特点，我们就要说到两个参数，第一个是quorum，quorum是我们可以给哨兵集群配置的一个参数，它的作用是：当master节点宕机的时候需要有至少quorum个哨兵节点认为mater宕机才能进行后续的操作，比如主备切换、故障转移，这个时候还需要一个参数majority来判断是否可以进行故障转移，需要有大多数哨兵节点正常工作来同同意这次故障转移，即正常工作的哨兵节点数要大于majority，majority有一个通用的规则：2个哨兵节点的majority为2，3个哨兵节点的majority为2，4个哨兵节点的majority为2，5个哨兵节点的majority为3，以此类推。如果一个master节点宕机了，同时他的哨兵进程同时挂掉了，那么现在正常运行的哨兵节点数目为1，即使你把quorum设置为1，满足了quorum的条件，但是是不能满足正常运行的哨兵节点大于majority，也就是2，所以是不能保证能够进行故障转移的。

第一种情况： maser节点和slave节点之间的数据传输不是同步的，是异步的，当客户端往master中写数据的时，master异步的发送给slave节点，这当中会存在一定的延迟，当master节点挂掉的时候是不能保证这一小部分数据会及时的发送给slave节点。

第二种情况：当master节点与slave节点间发生网络故障，导致无法与slave节点通讯，产生网络分区。这时，老的master节点并没有视为宕机，仍然在不停的写数据。此时这个slave节点如果被选举为新的master节点，这样就会发生“集群脑裂”，客户端程序还是会源源不断地将数据写入老的master节点，新的master节点却没有接收到新的数据，当网络恢复正常，老的master节点降为slave节点的时候，会立即执行全量的主从复制，那么故障之后的数据就会丢失。

现在我们有一主两从的这样一个redis 集群，每个redis节点有一个哨兵,我们设置quorum为2,那么当master节点宕机的话，此时三个哨兵还剩下两个，剩下的两个slave节点一致认为master宕机，此时三个哨兵节点的majority为2,剩下还有2个正常运行的哨兵节点，那么就可以选举出新的master节点进行故障转移。

异步复制数据丢失，集群脑裂数据丢失的问题我们可以通过设置两个参数来减少数据丢失：

       min-slaves-to-write 1

        min-slaves-max-lag 10

上面两个参数表达的意思为：要求至少有1个slave，数据复制和同步的延迟不能超过10秒。也就是说，如果所有的slave节点都落后于master节点10秒钟的数据，那么master节点就不会再接受任何请求了。

（1）减少异步复制的数据丢失

        有了min-slaves-max-lag这个配置，一旦slave复制数据和ack延时太长，就认为可能master宕机后损失的数据太多了，那么就拒绝写请求，这样可以把master宕机时由于部分数据未同步到slave导致的数据丢失降低的可控范围内，最多也就丢失10秒的数据。

（2）减少脑裂的数据丢失

        如果一个master出现了脑裂，跟其他slave丢了连接，那么上面两个配置可以确保说，如果不能继续给指定数量的slave发送数据，而且slave超过10秒没有给自己ack消息，那么就直接拒绝客户端的写请求。这样脑裂后的旧master就不会接受client的新数据，也就避免了数据丢失。上面的配置就确保了，如果跟任何一个slave丢了连接，在10秒后发现没有slave给自己ack，那么就拒绝新的写请求。因此在脑裂场景下，最多就丢失10秒的数据。

（3）当master不接受请求之后该如何处理

当master不接受写请求之后，我们需要给client做降级，让它直接把数据写到本地磁盘里，让client自己处理这些数据，做相应的降级和限流，减慢数据涌入的速度。或者将数据写入一个消息队列，每隔一段时间取一次，尝试将数据重新写入到redis中。

什么是sdown,sdown又称为主观宕机，即一个哨兵觉得master节点宕机，这就是sdown。odown又称为客观宕机，即现在有quorum个哨兵都认为master宕机了。判断sdown的条件就是：一个哨兵ping一个master，超过了is-master-down-after-milliseconds参数指定的毫秒数之后，就主观认为master宕机。sdown转换到odown的条件就是：如果一个哨兵在指定时间内收到了超过quorum个哨兵的认为该master节点宕机的信息，就转换成了odown。

        哨兵互相之间的发现，是通过redis的pub/sub系统实现的，每个哨兵都会往__sentinel__:hello这个channel里发送一个消息，这时候所有其他哨兵都可以消费到这个消息，并感知到其他的哨兵的存在。每隔两秒钟，每个哨兵都会往自己监控的某个master+slaves对应的__sentinel__:hello channel里发送一个消息，内容是自己的host、ip和runid还有对这个master的监控配置。每个哨兵也会去监听自己监控的每个master+slaves对应的__sentinel__:hello channel，然后去感知到同样在监听这个master+slaves的其他哨兵的存在。每个哨兵还会跟其他哨兵交换对master的监控配置，互相进行监控配置的同步。

        哨兵会负责自动纠正slave的一些配置，比如slave如果要成为潜在的master候选人，哨兵会确保slave在复制现有master的数据; 如果slave连接到了一个错误的master上，比如故障转移之后，那么哨兵会确保它们连接到正确的master上。

        如果一个master被认为odown了，而且majority哨兵都允许了主备切换，那么某个哨兵就会执行主备切换操作，此时首先要选举一个slave，会考虑slave的一些信息:

a.跟master断开连接的时长

b.slave优先级

c.复制offset

d.run id

        如果一个slave跟master断开连接已经超过了down-after-milliseconds的10倍（加上master宕机的时长），那么slave就被认为不适合选举为master。计算公式为：(down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state。接下来会对slave进行排序：

a.按照slave优先级进行排序，slave priority越低，优先级就越高

b.如果slave priority相同，那么看replica offset，哪个slave复制了越多的数据，offset越靠后，优先级就越高

c.如果上面两个条件都相同，那么选择一个run id比较小的那个slave

        每次一个哨兵要做主备切换，首先需要quorum数量的哨兵认为odown，然后选举出一个哨兵来做切换，这个哨兵还得得到majority哨兵的授权，才能正式执行切换。如果quorum < majority，比如5个哨兵，majority就是3，quorum设置为2，那么就3个哨兵授权就可以执行切换，但是如果quorum >= majority，那么必须quorum数量的哨兵都授权，比如5个哨兵，quorum是5，那么必须5个哨兵都同意授权，才能执行切换。

        哨兵会对一套redis master+slave进行监控，有相应的监控的配置，执行切换的那个哨兵，会从要切换到的新master（salve->master）那里得到一个configuration epoch，这就是一个版本号，每次切换的version号都必须是唯一的。如果第一个选举出的哨兵切换失败了，那么其他哨兵，会等待failover-timeout时间，然后接替继续执行切换，此时会重新获取一个新的configuration epoch，作为新的版本号。

        哨兵完成切换之后，会在自己本地更新生成最新的master配置，然后同步给其他的哨兵，就是通过之前说的pub/sub消息机制。这里之前的版本号就很重要了，因为各种消息都是通过一个channel去发布和监听的，所以一个哨兵完成一次新的切换之后，新的master配置是跟着新的版本号，其他的哨兵都是根据版本号的大小来更新自己的master配置的。

E. Sentinel（哨兵）

    Redis主从复制模式下，一旦主节点（主服务器）由于故障不能提供服务，需要人工将节点晋升为主节点，同时还要通知应用方更新主节点的地址，然而应用方无法及时感知到主节点的变化，必然会造成一定的写数据丢失和读数据错误，所以这是在大多数情况是无法接受的。所以Redis提供了一种高可用的解决方法——哨兵。

Sentinel是Redis的高可用解决方案：由一个或多个Sentinel实例组成的Sentinel系统可以监视任意多个主服务器以及这些主服务器属下的所有从服务器，并在被监视的主服务器进入下线状态下时，自动将下线主服务器属下的某个从服务器升级为主服务器，然后由新的主服务器代替已下线的主服务器继续处理命令请求。如果下线的主服务器重新连接上线的话，它会被Sentinel系统降级为新主服务器的从服务器。而这些过程完全是自动的，不需要人工介。

下面介绍Sentinel系统的具体工作过程。

Sentinel只是一个运行在特殊模式下的Redis服务器，其本身就是独立的Redis节点，只不过它不存储数据，只支持部分命令。

Sentinel会读入用户指定的配置文件，为每个要被监视的主服务器创建相应的实例结构保存在Sentinel状态（服务器初始化的一个sentinel结构，用于保存服务器中所有和Sentinel功能有关的状态）的masters属性中。并创建连向主服务器的网络连接，Sentinel将成为主服务器的客户端，并从命令回复中获取相关信息。

对于每个被Sentinel监视的主服务器来说，Sentinel会创建两个连向主服务器的异步网络连接：

1) 一个是命令连接，这个连接专门用于向主服务器的网络连接，并接受命令。

2) 另一个是订阅连接，这个连接专门用于订阅主服务器的_sentinel_:hello频道。

Sentinel默认每10秒一次的频率，通过命令连接向被监视的主服务器发送 INFO 命令，并通过 INFO 命令的回复来获取主服务器以下的信息：

(1) 服务器本身的信息，包括运行ID以及服务器的角色（role）；

(2) 主服务属下的所有从服务器信息，包括从服务器的IP地址，端口号。根据这些IP和端口号，Sentinel无须用户提供从服务器的地址信息，就可以自动发现从服务器。

Sentinel根据这些获取的信息对主服务的实例结构进行更新。

对于上图，Sentinel将分别为3个从服务器创建各自的实例结构，并将这些实例结构保存主服务器实例结构的slaves属性里。

    当Sentinel发现主服务器有新的从服务器出现时，Sentinel除了会为这个新的从服务器创建相应的实例结构外，Sentinel还会为创建连接到从服务器的命令连接和订阅连接。

      在创建命令连接之后， Sentinel在默认情况下，会以每10秒一次的频率通过命令连接向从服务器发送 INFO 命令，并获取从服务器的回复信息，包括从服务器运行ID、从服务器的角色，主服务器的IP和端口、从服务的优先级等。根据这些信息对从服务器实例结构进行更新。

在默认情况下，Sentinel会以每2秒一次的频率，通过命令连接向所有被监听的主服务器和从服务器的_sentinel_ hello频道发送一条消息。消息的信息包括Sentinel本身的信息和对主服务器判断的信息。

    当Sentinel与一个主服务器或者从服务器建立起订阅连接之后， Sentinel就会通过订阅连接，向服务器发送以下命令：SUBSCRIBE _sentinel_:hello 。

    Sentinel对_sentinel_:hello频道的订阅会一直持续到Sentinel与服务器的连接断开为止。

    这也就是说，对于每个与Sentinel连接的服务器， Sentinel既通过命令连接向服务器的 sentinel_:hello频道发送信息，又通过订阅连接从服务器的 sentinel :hello 频道接收信息。

    对于监视同一个服务器的多个Sentinel 来说，一个Sentinel发送的信息会被其他 Sentinel接收到，这些信息会被用于更新其他Sentinel对发送信息Sentinel的认知，也会被用于更新其他Sentinel对被监视服务器的认知。

  举个例子，假设现在有sentinel1、sentinel 2、sentinel 3三个Sentinel在监视同一个服务器，那么当sentinel1向服务器的_sentinel_:hello频道发送一条信息时，所有订阅了_sentinel_:hello频道的Sentinel（包括sentinel1自己在内）都会收到这条信息。

当一个Sentinel从_sentinel_:hello频道收到一条信息时，Sentinel会对这条信息进行分析，提取出信息中的Sentinel IP地址、端口号、Sentinel运行ID等参数，并作以下检查：

**如果信息中记录的Sentinel运行ID和接收信息中Sentinel的运行ID 相同，说明这条信息是Sentinel自己发送的，Sentinel将丢弃这条信息，不做进一步处理。

**如果信息中记录的Sentinel运行ID和接收信息的Sentinel的运行ID不相同，那么说明这条信息是监视同一个服务器的其他Sentinel发来的，接收信息的Sentinel 将根据信息中的各个参数，对相应主服务器的实例结构进行更新。

这里的更新包括：主服务sentinels属性的更新和创建连向其他Sentinel命令连接

(1)  Sentinel为主服务器创建的实例结构中的sentinels属性保存了除Sentinel本身之外，所有同样监视这个主服务器的其他Sentinel的资料。当一个Sentinel接收到其他Sentinel发来的信息时（我们称呼发送信息的Sentinel为源Sentinel, 接收信息的Sentinel为目标Sentinel），根据信息中提取出主服务器参数，目标Sentinel会在自己的Sentinel状态的masters字典中查找相应的主服务器实例结构，然后根据提取出的Sentinel参数，检查主服务器实例结构的sentinels中，源Sentinel的实例结构是否存在：

因为一个Sentinel可以通过分析接收到的频道信息来获取其他Sentinel的存在，并通过发送频道信息让其他Sentinel知道自己的存在，所以用户在使用Sentinel时不需要提供各个Sentinel的地址信息，监视同一个主服务器的多个Sentinel可以自动发现对方。

(2) 创建连向其他Sentinel命令连接

    当Sentinel通过频道信息发现一个新的Sentinel时，它不仅会为新Sentinel在sentinels中创建相应的实例结构，还会创建一个连向新Sentinel的命令连接，而新Sentinel也同样会创建连向这个Sentinel的命令连接，最终监视同一主服务器的多个Sentinel将形成相互连接的网络。

在默认情况下，Sentinel会以每秒一次的频率向所有与它创建了命令的连接实例（包括主服务器、从服务器、其他Sentinel在内），发送PING命令，并通过实例返回PING命令的回复判断实例是否在线，如果在规定的时间内，连续向Sentinel返回无效的回复（除了+PONG、-LOADING、-MASTERDOWN之外的回复），那么Sentinel会修改这个实例所对应的实例结构，在结构的flags属性中打开SRI_S_DOWN标识，以此来标识这个实例已经进入了主观下线状态。

    当Sentinel将一个主服务器判断为主观下线之后，为了确认这个主服务器是否真的下线了，它会向同样监视这一主服务器的其他Sentinel进行询问，看它们是否也认为主服务器已经进人了下线状态（可以是主观下线或者客观下线）。当Sentinel从其他Sentinel那里接收到足够数量的已下线判断之后， Sentinel就会将从服务器判定为客观下线， Sentinel会将主服务器实例结构flags属性的SRI_O_DOWN标识打开，标识主服务器已经进入了客观下线状态。

当一个主服务器被判断为客观下线时，监视这个下线的主服务器的各个Sentinel会进行协商，选举出以个领头Sentinel，并由领头Sentinel对下线主服务器执行故障转移操作。

选举领头Sentinel规则和方法：

下面两幅图表示当三个Sentinel发现主服务器已经进入客观下线状态后，为了选举出领头Sentinel，三个Sentinel将再次向其他Sentinel发送SENTINEL is-master-down-by-addr命令要求其他Sentinel将自己设置为局部领头Sentinel。根据先到先得规则，如果某个Sentinel发送的命令比其他的快，并最终胜出领头Sentinel的选举，然后这个领头Sentinel就可以开始对服务器执行故障转移操作了。

    在选举产生出领头Sentinel之后，领头Sentinel将对已下线的主服务器执行故障转移操作，该操作包含以下三个步骤：

(1) 选出新的主服务器

故障转移的第一步就是在已下线主服务器属下的所有从服务器中挑选出一个状态良好、数据完成整的从服务器，然后向这个从服务器发送slave no one 命令，将这个从服务器装换为主服务器。

下图展示在一次故障转移操作中，领头Sentinel向选中的从服务器server3发送 SLAVEOF no one 命令。

  在发送 SLAVEOF no one命令之后，领头 Sentinel会以每秒一次的频率（平时是每10秒一次），向被升级的从服服务发送INFO命令，并观察命令回复中角色（role）信息，当被升级的从服务器的role由原来的slave变为master时，领头Sentinel就知道被选中的从服务器顺利升级为主服务器了。

(2) 修改从服务器的复制目标

当新的主服务器出现之后，领头Sentinel让已下线主服务器属下的所有从服务器去复制新的主服务器，这一动作可以通过向从服务器发送 SLAVE OF 命令来实现。

     (3) 将旧的主服务器变为从服务器

  故障转移操作最后要做的是，将巳下线的主服务器设置为新的主服务器的从服务器。

    当serverl1重新上线时，Sentinel就会向它发送 SLAVEOF 命令，让它成为server3的从服务器。

Redis的Sentinel实现主要包含以下几个方面：三个定时任务、主观下线和客观下线检测、领头Sentinel的选举、故障转移。

(1) 定时任务

(2) 主观下线和客观下线检测

客观下线：当Sentinel将一个主服务器判断为主观下线后，为了确认这个主服务是否真的下线了，他会向同样监视这个主服务器的所有其他Sentinel进行询问，看它们是否也认为主服务器是否进入下线状态，如果有足够多数量的Sentinel认为主服务器进入下线状态时，Sentinel就会将主服务器判定为客观下线状态。

(3) 领头Sentinel的选举

在主服务器被判定为客观下线后，Sentinel之间会根据一定的规则选出一个领头Sentinel，故障转移的工作就是这个领头Sentinel来完成的。

(4) 故障转移

注：本文参考《Redis设计与实现》，如发现错误，请指正！

F. 算法-哨兵查找法（OC、Swift、Python）

我们在一个数组中想查找某个对象item我们改如何操作呢？很简单一层遍历就可以搞定了，如下：

但是我们有没有更优的算法来查找呢？

在数据结构的书中我们可以找到“哨兵查找法”，但是什么又是“哨兵查找法”呢？什么又是“哨兵”呢？

所谓“哨兵”就是用一个特殊的值来作为数组的边界key，可以少用一条判断语句，目的在于免去查找过程中每一步都要检测整个表是否查找完毕，以达到提高程序的效率。

相对于一层遍历，没有使用”哨兵“的，是有两个判断条件的i<array.count和if(array[i] == item)；但是使用了”哨兵“只有一个判断条件if(array[i] == item)！

如果你的数据量非常小的话，相对于一层遍历来说，差别微乎其微，但是当数据达到十万或者更多的时候，函数的执行时间就会有明显差距了！

我们可以将数组的第一个值作为”哨兵“，数据存储下标index从1开始，则list的0号位表示暂无元素，位”哨兵“Key。

比如数组中有一千个元素，我查找中间那个元素，运行结果如下：

欢迎各位大神提出宝贵的意见和建议，也欢迎大家进群交流365152048！

导航:首页 > 编程语言 > Python哨兵节点

Python哨兵节点

与Python哨兵节点相关的资料