springboot redis 断线重连_Redis高可用方案实现

9f6ff951d4e72e5935608fe4eebee62a.png

redis中为了实现高可用(High Availability,简称HA),采用了如下两个方式:

  • 主从复制数据。
  • 采用哨兵监控数据节点的运行情况,一旦主节点出现问题由从节点顶上继续进行服务。

主从复制

redis中主从节点复制数据有全量复制和部分复制之分。

旧版本全量复制功能的实现

全量复制使用snyc命令来实现,其流程是:

  • 从服务器向主服务器发送sync命令。
  • 主服务器在收到sync命令之后,调用bgsave命令生成最新的rdb文件,将这个文件同步给从服务器,这样从服务器载入这个rdb文件之后,状态就会和主服务器执行bgsave命令时候的一致。
  • 主服务器将保存在命令缓冲区中的写命令同步给从服务器,从服务器执行这些命令,这样从服务器的状态就跟主服务器当前状态一致了。

75bc94fd7c4ecf33a109199b3fe62900.png

旧版本全量复制功能,其最大的问题是从服务器断线重连时,即便在从服务器上已经有一部分数据了,也需要进行全量复制,这样做的效率很低,于是新版本的redis在这部分做了改进。

新版本全量复制功能的实现

新版本redis使用psync命令来代替sync命令,该命令既可以实现完整全同步也可以实现部分同步。

复制偏移量

执行复制的双方,主从服务器,分别会维护一个复制偏移量:

  • 主服务器每次向从服务器同步了N字节数据之后,将修改自己的复制偏移量+N。
  • 从服务器每次从主服务器同步了N字节数据之后,将修改自己的复制偏移量+N。

复制积压缓冲区

主服务器内部维护了一个固定长度的先进先出队列做为复制积压缓冲区,其默认大小为1MB。

在主服务器进行命令传播时,不仅会将写命令同步到从服务器,还会将写命令写入复制积压缓冲区。

3bd4411ef2691d23c3eebf6b288bcba2.png

服务器运行ID

每个redis服务器,都有其运行ID,运行ID由服务器在启动时自动生成,主服务器会将自己的运行ID发送给从服务器,而从服务器会将主服务器的运行ID保存起来。

从服务器redis断线重连之后进行同步时,就是根据运行ID来判断同步的进度:

  • 如果从服务器上面保存的主服务器运行ID与当前主服务器运行ID一致,则认为这一次断线重连连接的是之前复制的主服务器,主服务器可以继续尝试部分同步操作。
  • 否则,如果前后两次主服务器运行ID不相同,则认为是完成全同步流程。

psync命令流程

有了前面的准备,下面开始分析psync命令的流程:

  • 如果从服务器之前没有复制过任何主服务器,或者之前执行过slaveof no one命令,那么从服务器就会向主服务器发送psync ? -1命令,请求主服务器进行数据的全量同步。
  • 否则,如果前面从服务器已经同步过部分数据,那么从服务器向主服务器发送psync <runid> <offset>命令,其中runid是上一次主服务器的运行id,offset是当前从服务器的复制偏移量。

前面两种情况主服务器收到psync命令之后,会出现以下三种可能:

  • 主服务器返回+fullresync <runid> <offset>回复,表示主服务器要求与从服务器进行完整的数据全量同步操作。其中,runid是当前主服务器运行id,而offset是当前主服务器的复制偏移量。
  • 如果主服务器应答+continue,那么表示主服务器与从服务器进行部分数据同步操作,将从服务器缺失的数据同步过来即可。
  • 如果主服务器应答-err,那么表示主服务器版本低于2.8,识别不了psync命令,此时从服务器将向主服务器发送sync命令,执行完整的全量数据同步。

7d5c75c1343524461e2d7633ff360b76.png

哨兵机制

redis使用哨兵机制来实现高可用(HA),其大概工作原理是:

  • redis使用一组哨兵(sentinel)节点来监控主从redis服务的可用性。
  • 一旦发现redis主节点失效,将选举出一个哨兵节点作为领导者(leader)。
  • 哨兵领导者再从剩余的从redis节点中选出一个redis节点作为新的主redis节点对外服务。

以上将redis节点分为两类:

  • 哨兵节点(sentinel):负责监控节点的运行情况。
  • 数据节点:即正常服务客户端请求的redis节点,有主从之分。

以上是大体的流程,这个流程需要解决以下几个问题:

  • 如何对redis数据节点进行监控?
  • 如何确定一个redis数据节点失效?
  • 如何选择出一个哨兵领导者节点?
  • 哨兵节点选择新的主redis节点的依据是什么?

以下来逐个回答这些问题。

三个监控任务

哨兵节点通过三个定时监控任务监控redis数据节点的服务可用性。

info命令

每隔10秒,每个哨兵节点都会向主、从redis数据节点发送info命令,获取新的拓扑结构信息。

redis拓扑结构信息包括了:

  • 本节点角色:主或从。
  • 主从节点的地址、端口信息。

这样,哨兵节点就能从info命令中自动获取到从节点信息,因此那些后续才加入的从节点信息不需要显式配置就能自动感知。

26ce9c040faa2152226122aaa2d75c10.png

向__sentinel__:hello频道同步信息

每隔2秒,每个哨兵节点将会向redis数据节点的__sentinel__:hello频道同步自身得到的主节点信息以及当前哨兵节点的信息,由于其他哨兵节点也订阅了这个频道,因此实际上这个操作可以交换哨兵节点之间关于主节点以及哨兵节点的信息。

这一操作实际上完成了两件事情: * 发现新的哨兵节点:如果有新的哨兵节点加入,此时保存下来这个新哨兵节点的信息,后续与该哨兵节点建立连接。 * 交换主节点的状态信息,作为后续客观判断主节点下线的依据。

735a60715802642a0d8bc1519b27db3e.png

向数据节点做心跳探测

每隔1秒,每个哨兵节点向主、从数据节点以及其他sentinel节点发送ping命令做心跳探测,这个心跳探测是后续主观判断数据节点下线的依据。

9a1b99fed21dee3e5ae06d315417dc49.png

主观下线和客观下线

主观下线

上面三个监控任务中的第三个探测心跳任务,如果在配置的down-after-milliseconds之后没有收到有效回复,那么就认为该数据节点“主观下线(sdown)”。

e619732c5b0f30ec2813f84323ff5622.png

为什么称为“主观下线”?因为在一个分布式系统中,有多个机器在一起联动工作,网络可能出现各种状况,仅凭一个节点的判断还不足以认为一个数据节点下线了,这就需要后面的“客观下线”。

客观下线

当一个哨兵节点认为主节点主观下线时,该哨兵节点需要通过”sentinel is-master-down-by addr”命令向其他哨兵节点咨询该主节点是否下线了,如果有超过半数的哨兵节点都回答了下线,此时认为主节点“客观下线”。

c765b6d6fe24d3f841e6a38063462ceb.png

选举哨兵领导者

当主节点客观下线时,需要选举出一个哨兵节点做为哨兵领导者,以完成后续选出新的主节点的工作。

这个选举的大体思路是:

  • 每个哨兵节点通过向其他哨兵节点发送”sentinel is-master-down-by addr”命令来申请成为哨兵领导者。
  • 而每个哨兵节点在收到一个”sentinel is-master-down-by addr”命令时,只允许给第一个节点投票,其他节点的该命令都会被拒绝。
  • 如果一个哨兵节点收到了半数以上的同意票,则成为哨兵领导者。
  • 如果前面三步在一定时间内都没有选出一个哨兵领导者,将重新开始下一次选举。

可以看到,这个选举领导者的流程很像raft中选举leader的流程。

2289fd567857d755b8e2727ae4b63c8e.png

选出新的主节点

在剩下的redis从节点中,按照以下顺序来选择新的主节点:

  • 过滤掉“不健康”的数据节点:比如主观下线、断线的从节点、五秒内没有回复过哨兵节点ping命令的节点、与主节点失联的从节点。
  • 选择slave-priority(从节点优先级)最高的从节点,如果存在则返回不存在则继续后面的流程。
  • 选择复制偏移量最大的从节点,这意味着这个从节点上面的数据最完整,如果存在则返回不存在则继续后面的流程。

到了这里,所有剩余从节点的状态都是一样的,选择runid最小的从节点。

0eac9e80838d2c0d8dc9ead534a5f519.png

提升新的主节点

选择了新的主节点之后,还需要最后的流程让该节点成为新的主节点:

  • 哨兵领导者向上一步选出的从节点发出“slaveof no one”命令,让该节点成为主节点。
  • 哨兵领导者向剩余的从节点发送命令,让它们成为新主节点的从节点。
  • 哨兵节点集合会将原来的主节点更新为从节点,当其恢复之后命令它去复制新的主节点的数据。

674eb8d96d40f1bc789f49d46770a761.png

3afc95c21156fc17db3f95927dae3552.png

欢迎移步搜索关注公众号:互联网架构师之路(hlw_architector),获取最新架构材料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

罗德里格斯(Rodrigues)旋转向量与矩阵的变换

在做双目立体视觉深度图像生成的时候&#xff0c;遇到旋转向量&#xff08;1x3&#xff09;与旋转矩阵&#xff08;3x3&#xff09;的概念&#xff0c;得知二者可以通过罗德里格斯相互转化。 1.旋转的表示 处理三维旋转问题时&#xff0c;通常采用旋转矩阵的方式来描述旋转变换…

Mongodb 分片与副本集

测试搭建192.168.3.110mongos 30000&#xff0c;30001,30002config 40000,40001,40002shard1 50001,50002,50003shard2 50004,50005,50006,shard3 50007,50008,50009[rootmysql-slave10 data]# mkdir -p /data/config/1/data[rootmysql-slave10 data]# mkdir -p /data/config/2…

python必读5本书籍_免费下载!5本从Python入手机器学习的必备电子书!(附链接)...

大数据文摘授权转载自数据派THU作者&#xff1a;Richard Gall编译&#xff1a;车前子、丁楠雅今天&#xff0c;机器学习已成为软件工程所有领域中最重要的发展趋势之一。这门技术不再局限于研究者和数据分析者&#xff0c;从网络安全到网络开发机&#xff0c;器学习都至关重要。…

error c4996: 'fopen' This function or variable may be unsafe如何解决

1.问题描述 VS2013OPENCV249&#xff0c;不止一次遇到以下类似错误&#xff1a; error C4996: fopen: This function or variable may be unsafe. Consider using fopen_s instead. To disable deprecation, use _CRT_SECURE_NO_WARNINGS. See online help for details.d:\open…

JavaParser中AST节点的观察者

我们离JavaParser 3.0的第一个候选发布版本越来越近。 我们添加的最后一项功能是支持观察抽象语法树的所有节点的更改。 当我为此功能编写代码时&#xff0c;我收到了Danny van Bruggen&#xff08;又名Matozoid&#xff09;和Cruz Maximilien的宝贵反馈。 因此&#xff0c;我使…

nc命令详解

NetCat&#xff0c;在网络工具中有“瑞士军刀”美誉&#xff0c;其有Windows和Linux的版本。因为它短小精悍&#xff08;1.84版本也不过25k&#xff0c;旧版本或缩减版甚至更小&#xff09;、功能实用&#xff0c;被设计为一个简单、可靠的网络工具&#xff0c;可通过TCP或UDP协…

startindex 不能大于字符串长度_「12」学习MySQL第二类函数:字符串函数

前一篇文章总结了下MySQL中常用的数学函数&#xff0c;本文接下来的重点就是认识“字符串函数”。上图这匹漂亮的马儿就是通过各种字符(字母、括号、逗号、竖线等)画出来的。我不由自主地会去想下面几个问题&#xff1a;它到底有多少个字符&#xff1f;--字符串长度它里面的小写…

对数函数的C、MATLAB表示

1、C语言中的对数函数 头文件&#xff1a;#include格式&#xff1a;①double log (double x);log() 函数返回以 e 为底的对数值&#xff0c;即数学中的lnx&#xff1b;如果 x 为负数或 0&#xff0c;则会发生错误并设置 errno 值。错误代码&#xff1a;EDOM&#xff1a;参数x 为…

微信小程序开发——超链接或按钮点击跳转到其他页面失效

1. 超链接导航失效&#xff1a; 小程序规则——wx.navigateTo 和 wx.redirectTo 不允许跳转到 tabbar 页面&#xff0c;只能用 wx.switchTab 跳转到 tabbar 页面转载于:https://www.cnblogs.com/xyyt/p/9252835.html

javaone_JavaOne 2012:Lambda之路

javaone我最热切期待的JavaOne 2012演讲之一是Brian Goetz的“通往Lambda的道路”。 昨晚的技术主题演讲中的Lambda味道仅增加了预期。 这是在希尔顿广场A / B举行的&#xff0c;距离我之前在金门大桥A / B / C参加的演讲仅几步之遥。 我曾预计会打包相对较大的Plaza A / B&…

uml 时序图_UML各种图总结:

UML的书籍&#xff1a;《UML distilled》、《UML和模式应用》、《UML用户指南》、《UML对象设计与编程》、《UMLOracle8建模》UML&#xff08;Unified Modeling Language&#xff09;是一种统一建模语言&#xff0c;为面向对象开发系统的产品进行说明、可视化、和编制文档的一种…

让程序结果在屏幕上暂停一段时间

现在使用VS2013输出printf显示结果&#xff0c;经常会出现一闪而过的情况&#xff0c;现有以下解决办法&#xff1a; 1.调用系统命令暂停 #include <stdlib.h>system("pause");2. #include<conio.h> getchar(); 3. #include<stdlib.h> getchar(); …

Linux shell的标准输入、输出和错误

1.文件描述符 在linux shell执行命令时&#xff0c;每个进程都和三个打开的文件相联系&#xff0c;并使用文件描述符来引用这些文件。由于文件描述符不容易记忆&#xff0c;shell同时也给出了相应的文件名&#xff1a; 文件文件描述符输入文件—标准输入0&#xff08;缺省是键…

微基准测试进入Java 9

我已经几个月没有在这里写文章了&#xff0c;这种例外也会继续下去。 我计划在明年三月左右恢复写作。 本文末尾的说明。 等待&#xff01; 不完全是最后&#xff0c;因为您可以向下滚动。 它在文章结尾处。 继续阅读&#xff01; 三年前&#xff0c;我在写有关Java编译器如何…

摆渡车(noip2018 pj t3)

摆渡车&#xff08;题目和测试右转 洛谷P5017&#xff09; 做法&#xff1a;dp各种优化(剪枝) 这道题考场上看了一脸懵逼...第一眼看这 tm 不是个一维dp吗...结果按着这个朦胧的思路&#xff0c;删删改改约莫0.5h&#xff0c;终于过了小样例&#xff0c;然后一测大样例...GG了。…

关于树的冷知识

1、为什么冬天树干刷白漆&#xff1f; 刷的是是石灰水&#xff0c;主要成分是石灰乳,还有食盐,大豆粉,石榴合剂。 好处一、石灰具有一定的杀菌、杀虫作用&#xff0c;可以杀死寄生在树干上的一些越冬的真菌、细菌和害虫。 好处二、由于害虫一般都喜欢黑色、航脏的地方&#x…

乐玩自动化测试模块_自动化测试模型(一)自动化测试模型介绍

一个自动化测试框架就是一个集成体系&#xff0c;在这一体系中包含测试功能的函数库&#xff0c;测试数据源&#xff0c;测试对象标准&#xff0c;以及各种可重用的模块。自动化测试在发展过程中经历了以下几个阶段&#xff0c;模块驱动测试&#xff0c;数据驱动测试及对象驱动…

linux特殊权限位之setuid、setgid和sticky

我们登陆到系统之后,创建一个普通文件或者目录的时候,会有一个默认的权限。普通文件是644,目录文件是755,想必大家都知道这个是由umask这个值决定的。我们可以直接执行umask命令查看&#xff0c;linux系统默认的umask值是0022。想改变创建文件默认的权限&#xff0c;我们直接修…

js获取当前时间,并实时更新

可以使用JavaScript的Date()对象来获取当前时间&#xff0c;并使用setInterval()函数实现实时更新。 以下是一个示例代码&#xff1a; <p id"time"></p>function updateTime() {var now new Date();var hours now.getHours();var minutes now.getMi…

11.23日常

整理相关资料&#xff0c;阅读c#课本转载于:https://www.cnblogs.com/JL3Peanut/p/10032318.html