Kafka 可靠性探究—副本刨析

Kafka 的多副本机制提升了数据容灾能力。

副本通常分为数据副本与服务副本。数据副本是指在不同的节点上持久化同一份数据;服务副本指多个节点提供同样的服务,每个节点都有能力接收来自外部的请求并进行相应的处理。

1 副本刨析

1.1 相关概念

AR:Assigned Replicas,分区中的所有副本。

ISR:In-Sync Replicas,与leader副本保持同步状态的副本集合。

LEO:Log End Offset,分区中最后一条消息的下一个位置。

HW:High Watermark,高水位。标识了一个特定的消息偏移量,消费者只能拉取到这个偏移量之前的消息。HW是ISR集合中最小的LEO。

1.2 失效副本

在ISR集合之外的副本称为失效副本。即处于同步失效的状态。

broker端参数replica.lag.time.max.ms 配置了一个follower副本滞后于leader副本的最长时间间隔。(默认值30s)

当follower副本将leader副本LEO之前的日志全部同步过来的间隔时间超过这个值时,该副本处于同步失效状态,会从ISR集合中移除。

当副本追赶上leader时,会更新该副本的lastCaughtUpTimeMs。如果副本还未追赶上leader,则用当前时间-lastCaughtUpTimeMs计算差值,如果差值大于上面配置的值,那么该副本处于同步失效状态。

追赶上leader副本的判定标准是此副本的LEO是否不小于leader副本的HW。

1.2.1 ISR的伸缩

“isr-expiration”任务用于周期性地检测每个分区是否需要缩减其ISR集合。周期是replica.lag.time.max.ms配置参数的一半。当检测到ISR集合中有副本失效时,就会收缩ISR集合。

当ISR集合发生变更时,会将变更后的记录缓存到isrChangeSet中。isr-change-propagation会周期性(固定值为2500ms)地检查isrChangeSet。如果发现了变更记录,它会在Zookeeper的/isr_change_notification路径下创建一个保存isrChangeSet信息的节点。Kafka为/isr_change_notification添加了一个Watcher,当这个节点中有子节点发生变化时会触发Watcher的动作。

注意,频繁触发Watcher会影响性能,Kafka为避免这种情况,当检测到ISR集合发生变化时,还需要检查以下两个条件:

  1. 上次ISR集合发生变化距离现在已超过5s。
  2. 上次写入Zookeeper的时间距离现在已超过60s。

1.3 副本LEO与HW的变化

图 副本同步过程中LEO与HW的变化

follower 向leader拉取消息时,LEO与HW的变更步骤如下:

  1. follower向leader拉取消息时,请求会携带自身的LEO信息,即fetch_offset。
  2. leader收到请求时,会先检查该副本是否在ISR中,如果在,则将自身的HW值更新为所有ISR中的follower的LEO最小的值(leader会保存其他follower副本的LEO,会在返回响应之前更新对应follower的LEO)。然后连同消息和HW一起返回FetchResponse给follower。
  3. follower 在收到FetchResponse响应后,更新LEO,然后取自身LEO及返回的HW中的最小值来更新自身的HW。

1.3.1 LEO和HW的持久化

Kafka 会周期性的将所有分区的LEO刷写到recovery-point-offset-checkpoint中(恢复点文件)。将所有分区的HW刷写到replication-offset-checkpoint中(复制点文件)。

1.4 同步机制

在0.11.0版本之前,Kafka使用的是基于HW的同步机制,这样可能会出现数据丢失或数据不一致的问题。

1.4.1 数据丢失

图 副本宕机及恢复过程中数据丢失

  1. 如图,某刻A副本为follower副本,LEO=5,HW=3。B为leader。此时A发生宕机。
  2. A恢复,并且根据HW,对日志进行阶段,使LEO=3。
  3. B发生宕机,A被选举为leader。
  4. B恢复,成为follower。因为follower的HW不能大于leader的HW。所以B会更改HW,并进行日志阶段,使HW=3,LEO=3。
  5. 丢失2条消息。

1.4.2 数据不一致

图 副本宕机及恢复过程中数据不一致

  1. A与leader B 同时宕机。随后A先恢复,成为leader。
  2. 有1条消息写入到该分区,leader A 的LEO变为4,HW也变更为4。
  3. 此时B也恢复成为follower,因为其HW不大于leader的HW,且等于LEO,所以其不要解答日志,同时也不会拉取leader的数据。
  4. B与leader A 的最新一条消息不一致。

1.4.3 Leader Epoch

为了解决上述两种问题,从0.11.0版本开始引入leader epoch的概念。

leader epoch 代表leader的纪元信息,初始值为0,每当leader变更一次,该值就会加1。

每个副本都会增设一个矢量<LeaderEpoch => StartOffset>,其中StartOffset表示当前LeaderEpoch下写入的第一条消息的偏移量(LEO)。在发生leader epoch变更时,每个副本会将对应的矢量追加到其Log下的leader-epoch-checkpoint文件中。

follower副本从宕机状态恢复后,会先发送OffsetsForLeaderEpochRequest请求给leader。将携带follower当前的Leader Epoch值。leader 收到该请求后会返回当前的LEO。如果follower的Leader Epoch值和leader的不相同,那么leader将会查找 Leader epoch 为 follower 的Leader Epoch 值 + 1对应的StartOffset,并返回。

follower在收到响应后,根据返回值与自身的LEO作对比,来决定是否需要将日志阶段截断使LEO等于返回值。

图 副本宕机及恢复过程Leader epoch的变化

  1. A为leader,此时副本的LE(Leader epoch)都为0。B发生宕机,然后A发生宕机,此时C被选举为leader,并且C的LE+1,变更为1。
  2. B 恢复,并且向C发送OffsetsForLeaderEpochRequest请求,C返回3,B收到响应后,将日志截断,使得LEO=3。

注意:当leader epoch 发送变更时,leader将会通知其他非宕机副本,使得它们来更新自己的<LeaderEpoch => StartOffset>矢量信息。

  1. C发生宕机,B被选举为leader,并且B的LE+1,变更为2。随后B被写入两条新的消息,LEO变为5。
  2. A恢复,并且向B发送OffsetsForLeaderEpochRequest请求,B返回LE为1的StartOffset,即为3。A收到响应后,将日志截断,使得其LEO=3.
  3. 随后A变更LE为2。并且向B拉取消息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/69283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能化转型2.0:从“工具应用”到“价值重构”

过去几年&#xff0c;“智能化”从一个模糊的概念逐渐成为企业发展的核心议题。2024年&#xff0c;随着生成式AI、大模型、智能体等技术的爆发式落地&#xff0c;中国企业正式迈入智能化转型的2.0时代。这一阶段的核心特征是从单一场景的“工具应用”转向全链条的“价值重构”&…

Unity Dots学习

ISystem和SystemBase的区别 Archetype和Chunk 相同组件的实体放在一起&#xff0c;也就是我们所说的内存块&#xff08;Chunk&#xff09; Chunk有一个大小 https://blog.csdn.net/weixin_40124181/article/details/103716338 如果批量操作的entity都是同一个chunk下的效率会更…

【1】高并发导出场景下,服务器性能瓶颈优化

高并发导出场景下&#xff0c;服务器性能瓶颈通常出现在 CPU、内存、磁盘 I/O 或网络带宽等方面。为了解决这些问题&#xff0c;可以从以下几个方面进行优化&#xff1a; 1. 优化导出逻辑 减少计算复杂度&#xff1a;检查导出逻辑中是否存在不必要的计算或重复操作&#xff0c;…

使用 Axios 获取用户数据并渲染——个人信息设置

目录 1. HTML 部分&#xff08;前端页面结构&#xff09; HTML 结构解析&#xff1a; 2. JavaScript 部分&#xff08;信息渲染逻辑&#xff09; JavaScript 解析&#xff1a; 3. 完整流程 4. 总结 5. 适用场景 本文将介绍如何通过 Axios 从服务器获取用户信息&#xff0…

能否通过蓝牙建立TCP/IP连接来传输数据

前言&#xff1a; 最近在做一个项目时&#xff0c;产生了一个疑问&#xff1a;能否通过蓝牙建立TCP/IP连接来传输数据 查阅了一些文章&#xff0c;可以得出结论&#xff1a;不行 下面是我截取的两篇个人认可的文章的回答&#xff1a; 文章一&#xff1a; 蓝牙是一种短距离无…

C06S02-Docker网络和资源限制

一、Docker网络模式 1. 桥接模式 Docker的默认网络模式&#xff0c;工作在第二层&#xff0c;也就是数据链路层。 启动Docker的时候会在宿主机上创建一个虚拟的网桥&#xff0c;工作方式类似于交换机。创建容器的时候&#xff0c;会分配一个和网桥相同网段的IP地址给容器使用…

生产环境的 MySQL事务隔离级别

MySQL 数据库的默认隔离级别是 RR( 可重复读 )&#xff0c;但是很多大公司把隔离级别改成了 RC(读已提交)&#xff0c;主要原因是为了提高并发和降低死锁概率 为了解决幻读的问题 RR 相比 RC 多了间隙锁( gap lock )和临键锁( next-keylock )。而 RC 中修改数据仅用行锁&#…

Oracle(windows安装遇到的ORA-12545、ORA-12154、ORA-12541、ORA-12514等问题)

其实出现该问题就是监听或者服务没有配好。 G:\xiaowangzhenshuai\software\Oracle\product\11.2.0\dbhome_1\NETWORK\ADMINlistener.ora SID_LIST_LISTENER (SID_LIST (SID_DESC (SID_NAME CLRExtProc)(ORACLE_HOME G:\xiaowangzhenshuai\software\Oracle\product\11.2.0\d…

Mac上搭建k8s环境——Minikube

1、在mac上安装Minikube可执行程序 brew cask install minikub 安装后使用minikube version命令查看版本 2、安装docker环境 brew install --cask --appdir/Applications docker #安装docker open -a Docker #启动docker 3、安装kubectl curl -LO https://storage.g…

OpenAI 实战进阶教程 - 第二节:生成与解析结构化数据:从文本到表格

目标 学习如何使用 OpenAI API 生成结构化数据&#xff08;如 JSON、CSV 格式&#xff09;。掌握解析数据并导出表格文件的技巧&#xff0c;以便适用于不同实际场景。 场景背景 假设你是一名开发人员&#xff0c;需要快速生成一批产品信息列表&#xff08;如名称、价格、描述…

PostgreSQL 中进行数据导入和导出

在数据库管理中&#xff0c;数据的导入和导出是非常常见的操作。特别是在 PostgreSQL 中&#xff0c;提供了多种工具和方法来实现数据的有效管理。无论是备份数据&#xff0c;还是将数据迁移到其他数据库&#xff0c;或是进行数据分析&#xff0c;掌握数据导入和导出的技巧都是…

【Gitlab】虚拟机硬盘文件丢失,通过xx-flat.vmdk恢复方法

前言 由于近期过年回家&#xff0c;为了用电安全直接手动关闭了所有的电源&#xff0c;导致年后回来商上电开机后exsi上的虚拟机出现了问题。显示我的gitlab虚拟机异常。 恢复 开机之后虚拟机异常&#xff0c;通过磁盘浏览发现gitlab服务器下面的虚拟机磁盘文件只有一个xxx-f…

如何在自己mac电脑上私有化部署deep seek

在 Mac 电脑上私有化部署 DeepSeek 的步骤如下&#xff1a; 1. 环境准备 安装 Homebrew&#xff08;如果尚未安装&#xff09;&#xff1a; Homebrew 是 macOS 上的包管理工具&#xff0c;用于安装依赖。 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com…

DeepSeek服务器繁忙问题的原因分析与解决方案

一、引言 随着人工智能技术的飞速发展&#xff0c;DeepSeek 等语言模型在众多领域得到了广泛应用。然而&#xff0c;在春节这段时间的使用过程中&#xff0c;用户常常遭遇服务器繁忙的问题&#xff0c;这不仅影响了用户的使用体验&#xff0c;也在一定程度上限制了模型的推广和…

python的ruff简单使用

Ruff 是一个用 Rust 编写的高性能 Python 静态分析工具和代码格式化工具。它旨在提供快速的代码检查和格式化功能&#xff0c;同时支持丰富的配置选项和与现有工具的兼容性。ruff是用rust实现的python Linter&Formatter。 安装&#xff1a; conda install -c conda-forge…

第16章 Single Thread Execution设计模式(Java高并发编程详解:多线程与系统设计)

简单来说&#xff0c; Single Thread Execution就是采用排他式的操作保证在同一时刻只能有一个线程访问共享资源。 1.机场过安检 1.1非线程安全 先模拟一个非线程安全的安检口类&#xff0c;旅客(线程)分别手持登机牌和身份证接受工作人员的检查&#xff0c;示例代码如所示。…

C# 压缩图片并保存到本地

本文主要介绍如何使用C#将图片进行压缩并保存到本地。 接收一个原始图片的字节数组、需要保存的图片类型、输出路径和图片质量。方法首先将字节数组转换为一个内存流&#xff0c;然后使用Image.FromStream方法将内存流转换为一个Image对象。接下来&#xff0c;方法创建一个编码…

项目练习:重写若依后端报错cannot be cast to com.xxx.model.LoginUser

文章目录 一、情景说明二、解决办法 一、情景说明 在重写若依后端服务的过程中 使用了Redis存放LoginUser对象数据 那么&#xff0c;有存就有取 在取值的时候&#xff0c;报错 二、解决办法 方法1、在TokenService中修改如下 getLoginUser 方法中&#xff1a;LoginUser u…

操作系统和中间件的信息收集

在浏览器中收集操作系统与中间件信息时&#xff0c;主要通过客户端JavaScript&#xff08;用于操作系统/浏览器信息&#xff09;和服务器端脚本&#xff08;用于中间件信息&#xff09;实现。以下是分步指南&#xff1a; 一、客户端操作系统信息收集&#xff08;JavaScript&am…

高级sql技巧 从复杂查询到性能优化 提升数据处理效率

在数据驱动的时代&#xff0c;SQL&#xff08;结构化查询语言&#xff09;是数据库管理和数据分析中不可或缺的工具。随着数据复杂度和数据量的增加&#xff0c;掌握 SQL 的高级技巧不仅能帮助我们高效处理复杂的数据查询&#xff0c;还能极大地提高数据库的性能和数据处理效率…