1. 配置
1.1 建立复制
配置复制的方式有以下三种:
1)在配置文件中加入slaveof{masterHost}{masterPort}随Redis启动生效。
2)在redis-server启动命令后加入--slaveof{masterHost}{masterPort}生效。
3)直接使用命令:slaveof{masterHost}{masterPort}生效。
注意:slaveof配置都是在从节点发起。
可以通过info replication指令查看主从节点的状态。
1.2 断开复制
在从节点执行slaveof no one来断开与主节点复制关系。断开复制关系后,从节点将变成主节点。从节点断开复制后并不会抛弃原有数据,只是无法再获取主节点上的数据变化。
执行slaveof {newMasterIp} {newMasterPort}命令可以实现切换主节点功能。切主操作流程如下:
1)断开与旧主节点复制关系。
2)与新主节点建立复制关系。
3)删除从节点当前所有数据。
4)对新主节点进行复制操作。
注意:
默认情况下,从节点使用slave-read-only=yes配置为只读模式。
复制只能从主节点到从节点,对于从节点的任何修改主节点都无法感知。
1.3 传输延迟
主从节点一般部署在不同机器上,复制时的网络延迟就成为需要考虑的问题,Redis为我们提供了repl-disable-tcp-nodelay参数用于控制是否关闭TCP_NODELAY,默认关闭,说明如下:
当关闭时,主节点产生的命令数据无论大小都会及时地发送给从节点(即实时同步到从节点),这样主从之间延迟会变小,但增加了网络带宽的消耗。
当开启时,主节点会合并较小的TCP数据包从而节省带宽(即非实时同步到从节点)。默认发送时间间隔取决于Linux的内核,一般默认为40毫秒。这种配置节省了带宽但增大主从之间的延迟。
2. 拓扑
一主一从结构:
用于主节点出现宕机时从节点提供故障转移支持。当应用写命令并发量较高且需要持久化时,可以只在从节点上开启AOF,这样既保证数据安全性同时也避免了持久化对主节点的性能干扰。
注意:当主节点关闭持久化功能时,如果主节点脱机要避免自动重启操作。因为主节点之前没有开启持久化功能自动重启后数据集为空,这时从节点如果继续复制主节点会导致从节点数据也被清空的情况,丧失了持久化的意义。安全的做法是在从节点上执行slaveof no one断开与主节点的复制关系,再重启主节点从而避免这一问题。
一主多从结构:
一主多从结构使得应用端可以利用多个从节点实现读写分离。
优点:把读命令发送到从节点从而分担主节点压力,防止慢查询对主节点造成阻塞。
缺点:对于写并发量较高的场景,多个从节点的数据同步可能会过度消耗网络带宽,加重了主节点的负载。
树状主从结构:
树状主从结构使得从节点不但可以复制主节点数据,同时可以作为其他从节点的主节点继续向下层复制。
优点:通过引入复制中间层,可以有效降低主节点负载和需要传送给从节点的数据量。
缺点:最底层的从节点数据延迟可能更大。
建议:当主节点需要挂载多个从节点时为了避免对主节点的性能干扰,可以采用树状主从结构降低主节点压力。
3. 主从复制原来
3.1 建立主从复制过程
在从节点执行slaveof命令后,复制过程便开始运作,一个完整流程包括如下步骤:
1)保存主节点信息,执行slaveof后从节点只保存主节点的地址信息便直接返回。
2)与主节点建立socket连接,如果无法建立连接,从节点会无限重试直到连接成功或者取消主从复制。
3)发送ping命令验证socket连接的有效性,如果未收到主节点的回复或者超时,从节点会断开socket连接,进行重试。
4)权限验证。如果主节点设置了requirepass参数,则从节点必须配置masterauth参数保证与主节点相同的密码才能通过验证。
5)首次同步数据集,主从复制连接正常通信后,主节点会把持有的数据全部发送给从节点,这部分操作是耗时最长的步骤。
6)持续同步,主节点会持续地把写命令发送给从节点,保证主从数据一致性。
3.2 数据同步
Redis在2.8及以上版本使用psync命令完成主从数据同步,同步过程分为:全量复制和部分复制。
全量复制:一般用于初次复制场景,会把主节点全部数据一次性发送给从节点,当数据量较大时,会
对主从节点和网络造成很大的开销。
部分复制:当主从复制中因网络闪断等原因造成的数据丢失时,从节点再次连上主节点后,如果条件允许,主节点会补发丢失数据给从节点。
复制偏移量:
参与复制的主从节点都会维护自身复制偏移量。
主节点在处理完写入命令后,会把命令的字节长度做累加记录,统计信息在info relication中的master_repl_offset指标中。
从节点每秒钟上报自身的复制偏移量给主节点,主节点也会保存从节点的复制偏移量。
从节点在接收到主节点发送的命令后,也会累加记录自身的偏移量。统计信息在info relication中的slave_repl_offset指标中。
通过主节点的统计信息,计算出master_repl_offset-slave_offset字节量,判断主从节点复制相差的数据量,根据这个差值判定当前复制的健康度。
复制积压缓冲区:
复制积压缓冲区是保存在主节点上的一个固定长度的队列,默认大小为1MB,当与第一个从节点建立连接时被创建,此后主节点响应写命令时,不但会把命令发送给从节点,还会写入复制积压缓冲区。复制缓冲区主要用于部分复制和补发丢失数据。复制缓冲区相关统计信息保存在主节点的info replication中。
主节点运行ID:
每个Redis节点启动后都会动态分配一个40位的十六进制字符串作为运行ID。运行ID的主要作用是用来唯一识别Redis节点,比如从节点保存主节点的运行ID识别自己正在复制的是哪个主节点。如果只使用ip +port的方式识别主节点,那么主节点重启变更了整体数据集(如替换RDB/AOF文件),从节点再基于偏移量复制数据将是不安全的,因此当运行ID变化后从节点将做全量复制。可以运行info server命令查看当前节点的运行ID(run_id)。需要注意的是Redis关闭再启动后,运行ID会随之改变。
psync命令:
从节点使用psync命令完成部分复制和全量复制,psync runid offset
1)从节点发送psync命令给主节点,参数runId是当前从节点保存的主节点运行ID,如果没有则默认值为空,参数offset是当前从节点保存的复制偏移量,如果是第一次参与复制则默认值为-1。
2)主节点根据psync参数和自身数据情况决定响应结果:
如果回复+FULLRESYNC{runId}{offset},那么从节点将触发全量复制流程。
如果回复+CONTINUE,从节点将触发部分复制流程。
如果回复+ERR,说明主节点版本低于Redis2.8,无法识别psync命令,从节点将发送旧版的sync命令触发全量复制流程。
3.3 全量复制
psync全量复制流程:
1)发送psync命令进行数据同步,由于是第一次进行复制,从节点没有复制偏移量和主节点的运行ID,所以发送psync -1。
2)主节点根据psync -1解析出当前为全量复制,回复+FULLRESYNC响应。
3)从节点接收主节点的响应数据保存运行ID和偏移量offset。
4)主节点执行bgsave保存RDB文件到本地。
5)主节点发送RDB文件给从节点,从节点接收RDB文件并保存在本地作为从节点的数据文件。
需要注意,对于数据量较大的主节点,比如生成的RDB文件超过6GB以上时要格外小心。传输文件这一步操作非常耗时,速度取决于主从节点之间网络带宽,如果总时间超过repl-timeout所配置的值(默认60秒),从节点将放弃接受RDB文件并清理已经下载的临时文件,导致全量复制失败。
6)从节点在接收RDB文件过程中,主节点仍然响应读写命令,因此主节点会把这期间写命令数据保存在复制客户端缓冲区内,当从节点加载完RDB文件后,主节点再把缓冲区内的数据发送给从节点,保证主从之间数据一致性。如果主节点创建和传输RDB的时间过长,对于高流量写入场景非常容易造成主节点复制客户端缓冲区溢出。默认配置为client-output-buffer-limit slave256MB64MB60,如果60秒内缓冲区消耗持续大于64MB或者直接超过256MB时,主节点将直接关闭复制客户端连接,造成全量同步失败。
7)从节点接收完主节点传送来的全部数据后会清空自身旧数据。
8)从节点开始加载RDB文件,对于较大的RDB文件,这一步操作依然比较耗时。
对于线上做读写分离的场景,从节点也负责响应读命令。如果此时从节点正出于全量复制阶段或者复制中断,那么从节点在响应读命令可能拿到过期或错误的数据。对于这种场景,Redis复制提供了slave-serve-stale-data参数,默认开启状态。如果开启则从节点依然响应所有命令。对于无法容忍不一致的应用场景可以设置no来关闭命令执行,此时从节点除了info和slaveof命令之外所有的命令只返回“SYNC with master in progress”信息。
9)从节点成功加载完RDB后,如果当前节点开启了AOF持久化功能,它会立刻做bgrewriteaof操作,为了保证全量复制后AOF持久化文件立刻可用。
全量复制耗时操作分析:
主节点bgsave时间。
RDB文件网络传输时间。
从节点清空数据时间。
从节点加载RDB的时间。
可能的AOF重写时间。
3.4 部分复制
当从节点正在复制主节点时,如果出现网络闪断或者命令丢失等异常情况时,从节点会向主节点要求补发丢失的数据,如果主节点的复制积压缓冲区内存在这部分数据则直接发送给从节点,这样就可以保持主从节点复制的一致性。补发的这部分数据一般远远小于全量数据,所以开销很小。
流程说明:
1)当主从节点之间网络出现中断时,如果超过repl-timeout时间,主节点会认为从节点故障并中断复制连接。
2)主从连接中断期间主节点依然响应命令,但因复制连接中断命令无法发送给从节点,不过主节点内部存在的复制积压缓冲区,依然可以保存最近一段时间的写命令数据,默认最大缓存1MB。
3)当主从节点网络恢复后,从节点会再次连上主节点。
4)当主从连接恢复后,由于从节点之前保存了自身已复制的偏移量和主节点的运行ID。因此会把它们当作psync参数发送给主节点,要求进行部分复制操作。
5)主节点接到psync命令后根据参数offset在自身复制积压缓冲区查找,如果偏移量之后的数据存在缓冲区中,则对从节点发送+CONTINUE响应,表示可以进行部分复制。
6)主节点根据偏移量把复制积压缓冲区里的数据发送给从节点,保证主从复制进入正常状态。
3.5 心跳
主从节点在建立连接后,它们之间维护着长连接并彼此发送心跳命令。
1)主节点默认每隔10秒对从节点发送ping命令,判断从节点的存活性和连接状态。可通过参数repl-ping-slave-period控制发送频率。
2)从节点在主线程中每隔1秒发送replconf ack{offset}命令,给主节点上报自身当前的复制偏移量。replconf命令主要作用如下:
实时监测主从节点网络状态。
上报自身复制偏移量,检查复制数据是否丢失,如果数据有丢失,再从主节点的复制缓冲区中拉取丢失数据。
主节点根据replconf命令判断从节点超时时间,体现在info replication统计中的lag信息中,lag表示与从节点最后一次通信延迟的秒数,正常延迟应该在0和1之间。如果超过repl-timeout配置的值(默认60秒),则判定从节点下线并断开连接。即使主节点判定从节点下线后,如果从节点重新恢复,心跳检测会继续进行。
3.6 主从复制是异步的
主节点不但负责数据读写,还负责把写命令同步给从节点。写命令发送给从节点是异步完成,也就是说主节点自身处理完写命令后直接返回给客户端,并不等待从节点复制完成。
在主节点执行info replication命令查看相关指标获得主从延迟情况。
在统计信息中可以看到从节点slave0信息,分别记录了从节点的ip和port,从节点的状态,offset表示当前从节点的复制偏移量;master_repl_offset表示当前主节点的复制偏移量,两者的差值就是当前从节点复制延迟量。正常情况下,延迟在1秒以内。