分布式一致性算法:可能比你想象得更复杂

转载自 分布式一致性算法:可能比你想象得更复杂

分布式系统的难题


张大胖遇到了一个难题。


他们公司的有个服务器,上面保存着宝贵的数据,领导Bill 为了防止它挂掉, 要求张大胖想想办法把数据做备份。


张大胖发挥了抽象的能力,在脑海里浮出了这么一个画面, 这个唯一的机器可以成为一个节点:



为了提高可用性,可以增加几台机器,通过局域网连接起来,形成一个了分布式的系统:


数据在每个节点上都存放一份不就可以高枕无忧了?


可张大胖很快发现这不是一件容易的事情,比如每个节点都保存着一个账户的余额100元,现在有人通过节点A向该账户增加了20元, 还有人通过节点B向该账户减去了30元。



现在余额到底是多少呢?


为了保持一致性, 节点A得把"余额加上20"这样的消息发给B, C , 节点B得把“余额减去30”这样的消息发送到A, C, 如果网络出了问题,消息没有发送到别的节点, 或者某个节点干脆坏掉了,那数据极有可能出现不一致。


如果用户在这个不一致的系统上继续操作,很快就会陷入混乱。


2谁来当老大?


张大胖想了半天,觉得不能这么无序地操作,得给这三个节点找个“老大”。


所有的操作都通过“老大”来进行,然后让老大把消息发给各个“小弟”。



可是谁来当老大呢?  还有,这个老大如果挂掉了怎么办?


可以手工地调整, 例如节点A挂掉了, 就手工地让节点B当“老大” , 让节点C当“小弟”。


但是这就有点麻烦了,能不能自动化地来实现?


这个问题很有意思, 张大胖入了迷,继续深入思考: 建立一个竞选的机制, 就让他们竞争上岗吧。


初始情况下,每个节点都是候选人, 都可以向其他节点发起投票邀请,让大家投自己,如果获得的投票数过半,就可以当“老大”了。


为了避免大家同时发起投票邀请,可以给每个节点都分配一个随机的“选举超时时间”(election timeout),通俗来讲就是一个等待时间,在这段时间内,一个节点必须耐心等待,过了这段时间,才可以竞争上岗,争当老大。


每个节点都有一个计时器,从0开始计时,谁的等待时间到了, 就率先发起竞选,给其他节点打电话,要求他们投票让自己成为老大。


比如节点A等待170ms , 节点B等待200ms ,  节点C等待250ms 。


由于节点A的等待时间最短, 会捷足先登, 它先增加自己的任期(Term),这是一个整数,初始值为0 , 然后给自己投了一票,然后打电话给节点B和节点C,要求他们都投它。



节点B和节点C收到了投票要求,如果自己还没有发起竞选投票(等待时间未到),那只好同意节点A当老大,与此同时要重置自己的计时器,重新从0开始计时,也就是说重新开始新一轮的等待。



节点A得知其他两个节点同意了,投票计数变为3,已经过了半数, 就明白自己可以当老大了。


节点A成为老大后,开始向节点B和节点C定时发送消息,B,C收到消息后也要回应,维持心跳。


B和C每次收到心跳消息,都得重置自己的计时器, 重新从0开始计数。


此时节点B和节点C就成了“小弟”。



如果节点A 不幸挂掉,节点B和节点C在自己的等待时间内收不到心跳消息,他们两个就会重新竞争上岗。



上图中节点C占据了先机,率先发起竞选投票。



节点B慢了一步, 无奈中同意支持节点C ,  节点C获得了超过半数的支持,成为“老大” ,  节点B成为“小弟”。


(可能有人会想到:节点B和节点C 同时发起竞选投票,每个节点的投票计数都是1 ,都过不了半数,  该怎么处理呢? 很简单,再次发起一轮竞选投票即可,当然为了防止B和C一直同时发起竞选投票,从而陷入无限循环,要重置一个随机的等待时间。)


投票过半数很重要,张大胖想,只有这样才能保证“老大”节点的唯一性。


对于每个节点,处理流程其实非常简单:



3数据的复制


张大胖费了半天劲,终于把分布式系统中怎么自动地选取“老大”节点给确定了。


接下来就是要把发给“老大”的数据,想办法复制到“小弟”的节点上。 该怎么处理?


由于是分布式的,只有大多数节点都成功地保存了数据,才算保存成功


所以那个“老大”节点必须得承担起协调的职责。


张大胖想了一个复制日志的办法:  每个节点都有一个日志的队列。



在真正把数据提交之前,先把数据追加到日志队列中,然后向个“小弟”复制。



1.  客户端发送数据给节点A (“老大”)。

节点A 先把数据记录到日志中,即此时处于“未提交状态


2. 在下一次的心跳消息中, 数据被发送给各个“小弟”。


3. 各个“小弟” 也把数据记录到日志中(也处于未提交状态),然后向“老大”报告自己已经记录了日志。


4. 如果节点A收到响应超过了半数, 节点A就提交数据,通知客户端数据保存成功。


5. 节点A在下一次心跳消息中,通知各个“小弟”该数据已经提交。各个“小弟”也提交自己的数据。


如果某个“小弟”不幸挂掉,那“老大”会不断地尝试联系它, 一旦它重新开始工作,就需要从“老大”那里去复制数据,和“老大”保持一致。


4RAFT


张大胖对这个初步的设计还比较满意,他把这个方案交给领导Bill去审查。


Bill 看了以后,笑道: “你现在其实就是在折腾一个一致性算法, 说白了就是允许一组机器像一个整体一样工作,即使其中一些机器出现故障也能够继续工作下去。


“没错没错,领导总结得真是精准。” 张大胖拍马屁。


“不过,”Bill 话锋一转, “ 你设计的日志的复制还有很多漏洞,我看你的设计中一共有5步, 如果在这5步中,那个“老大”节点A挂掉了怎么办?数据是不是就不一致了?”


“这个...... ”  张大胖确实没有仔细考虑。他暗自后悔,只顾低头拉车,忘了抬头看路,忽略了分布式环境下的复杂问题。


“不过你已经做得很不错了,” 领导马上鼓励道, “你设计的这一套体系其实和RAFT算法非常类似。”


“RAFT? ”


“对,RAFT是个分布式的一致性算法,相比复杂难懂的Paxos, RAFT在可理解,可实现性上做了很大的改进。 你这里的‘老大’,RAFT算法叫做Leader, ‘小弟’叫做Follower,不过人家对日志的复制,以及如何确保数据的一致性有着非常详细的规定。 ”


张大胖一听说有现成的算法,立刻高兴起来: “太好了,分布式的难题已经被别人解决,我去把它实现了。”


后记: 虽然RAFT比Paxos更容易理解, 但是一旦进入各个边界条件,仍然是非常复杂,所以本文只是介绍了Leader的选举,和日志复制的概要流程, 具体的细节还有很多,感兴趣的话可以去看看Raft的论文,点击阅读原文可以查看中文版。



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mybatis_user_guide(4) Mapper XML 文件

【-1】README 1)本文全文总结于 http://www.mybatis.org/mybatis-3/zh/sqlmap-xml.html【0】SQL 映射文件有很少的几个顶级元素(按照它们应该被定义的顺序): cache – 给定命名空间的缓存配置。cache-ref – 其他命名空间缓存配置…

Hibernate关联关系配置(一对多、一对一和多对多)

第一种关联关系:一对多(多对一) “一对多”是最普遍的映射关系,简单来讲就如消费者与订单的关系。 一对多:从消费者角的度来说一个消费者可以有多个订单,即为一对多。 多对一:从订单的角度来…

3分钟了解“关联规则”推荐

转载自 3分钟了解“关联规则”推荐 “把啤酒放在尿布旁,有助于提升啤酒销售量”是关联规则推荐的经典案例,今天,和大家聊聊“关联规则推荐”,正文不含任何公式,保证PM弄懂。一、概念 什么是关联规则(Associ…

mybatis_user_guide(5) 动态 SQL

【-1】README 1)本文全文总结于 http://www.mybatis.org/mybatis-3/zh/dynamic-sql.html 【0】动态 SQL 元素和使用 JSTL 或其他类似基于 XML 的文本处理器相似。在 MyBatis 之前的版本中,有很多的元素需要来了解。MyBatis 3 大大提升了它们,现在用不到原先一半的元…

sqlserver还原差异备份

因为之前遇到还原差异备份,最开始遇到SQLServer报错:”无法还原日志备份或差异备份,因为没有文件可用于前滚“。查阅很多资料后,终于得到解决。收集整理成这篇随笔。   问题原因:出现这种错误绝大多数是因为还原完整…

1分钟了解相似性推荐

转载自 1分钟了解相似性推荐前几天聊的“协同过滤(Collaborative Filtering)”和“基于内容的推荐(Content-based Recommendation)”,都必须分析用户的历史行为数据(例如电影点击数据,职位查看数…

mybatis_user_guide(6) Java API

【0】README1)本文全文总结于 http://www.mybatis.org/mybatis-3/zh/java-api.html【1】SqlSessions1)intro: 我们知道, SqlSessionFactoryBuilder 创建 SqlSessionFactory , SqlSessionFactory 创建 SqlSession,然后…

hibernate左连接查询时在easyUI的dataGrid中有些行取值为空的解决办法

1 当使用left join左连连接&#xff0c;sql语句为 select t from SecondPage t left join t.rightNavbar n where 11 页面中出现了部分空行的情况&#xff0c;上述语句返回的list集合为 DataGrid dataGrid new DataGrid(); List<SecondPage> listsecondPageDao.find(…

1分钟了解基于内容的推荐,pm又懂了

转载自 1分钟了解基于内容的推荐&#xff0c;pm又懂了什么是基于内容的推荐&#xff08;Content-based Recommendation&#xff09;&#xff1f; 答&#xff1a;通过用户历史感兴趣的信息&#xff0c;抽象信息内容共性&#xff0c;根据内容共性推荐其他信息。比如&#xff0c;如…

mybatis_user_guide(7) SQL语句构建器类

【0】README1&#xff09;本文全文总结于 http://www.mybatis.org/mybatis-3/zh/statement-builders.html【1】在Java代码中来动态生成SQL代码就是一场噩梦1&#xff09;problemsolutions&#xff1a;1.1&#xff09;problem&#xff1a;Java程序员面对的最痛苦的事情之一就是…

datagrid获取页面总记录数的方法,datagrid获取页面总记录数为0的解决方法

1 在网上查了一大堆博客&#xff0c;都只有下面这一段&#xff0c;也不知道这些人有没有测试 var data$(#tt).datagrid(getData); alert(总数据量:data.total)//注意你的数据源一定要定义了total&#xff0c;要不会为undefined&#xff0c;datagrid分页就是靠这个total定义 al…

1分钟了解协同过滤,pm都懂了

转载自 1分钟了解协同过滤&#xff0c;pm都懂了工程架构方向的程序员&#xff0c;看到推荐/搜索/广告等和算法相关的技术&#xff0c;心中或多或少有一丝胆怯。但认真研究之后&#xff0c;发现其实没有这么难。今天的1分钟系列&#xff0c;给大家介绍下推荐系统中的“协同过滤”…

mybatis_user_guide(8) 日志

【0】README 1&#xff09;本文全文总结于 http://www.mybatis.org/mybatis-3/zh/logging.html 2&#xff09;Mybatis内置的日志工厂提供日志功能&#xff0c;具体的日志实现有以下几种工具&#xff1a; SLF4JApache Commons LoggingLog4j 2Log4jJDK logging 3&#xff09;具体…

hibernate在saveOrUpdate时,update报错:a different object with the same identifier value was already assoc

1 原因&#xff1a;网上说是&#xff0c;在hibernate中同一个session里面有了两个相同标识但是是不同实体。 2 我找出的解决方法是&#xff1a; getSession().clear(); //在dao层把session清理一下 3 网上查找出还有其他解决方法&#xff0c;其中 getSession().merge(arg0…

1分钟了解区块链的本质

转载自 1分钟了解区块链的本质区块链&#xff0c;比特币这些概念最近都很火&#xff0c;但很多人搞不清楚它究竟是啥&#xff0c;准备从技术的角度&#xff0c;从架构的角度&#xff0c;用通俗的语言谈谈楼主的理解。究竟啥是区块链&#xff1f;答&#xff1a;一句话&#xff0…

maven(7)生命周期和插件

【0】README1&#xff09;本文部分文字转自 “maven实战”&#xff0c;旨在 review “maven(7)生命周期和插件” 的相关知识&#xff1b;2&#xff09;maven 另外两个核心概念是生命周期和插件&#xff1a;maven的生命周期是抽象的&#xff0c;其实际行为都由插件来完成&#…

datagrid的文字换行与连续字符串换行处理,字符串三种截取方式

1 文字自动换行&#xff1a;nowrap:false 2 当时字符串&#xff0c;比如email这样的字段时&#xff0c;就需要用到字符串的拼接&#xff0c;首先&#xff0c;先贴出我解决问题的方法&#xff0c;再介绍字符串的三种拼接方式&#xff1a; 我解决问题的方法&#xff1a; {titl…

1分钟了解“区块链分叉”的本质

转载自 1分钟了解“区块链分叉”的本质 有不少朋友问&#xff0c;全球每个区块链节点都包含全部数据&#xff0c;都在最新的区块链数据上挖符合条件的区块&#xff0c;如何两个节点同时挖到新区块&#xff0c;出现数据不一致&#xff0c;该怎么办呢&#xff1f; 今天&#xff0…

sql server数据库:创建数据库、建立数据库用户、为用户赋予权限

1 使用sql创建数据库 use test go create database test2 on primary (nametest2_data, -- 主文件逻辑名filenameD:\DataSqlserver\test2_data.mdf,--物理路径size5MB,filegrowth15% ) log on (nametest2_log,filenameD:\DataSqlserver\test2_log.ldf, --日志物理文件名size…

review_core_basic_java(1)java程序设计概述

【0】README1&#xff09;本文部分文字描述转自 “core java volume 1” 旨在review “review_core_basic_java(1)java程序设计概述” 的相关知识&#xff1b;【1】 java 程序设计平台 【2】 java 白皮书的关键术语0&#xff09;intro&#xff1a;java的设计者编写了颇有影响力…