【实现自己的 kafka!】kafka 的关键概念

news/2025/10/10 22:14:28/文章来源:https://www.cnblogs.com/shadowzlh/p/19133979

kafka 的诞生

现在是在 2000 年代后期,你的名字叫做 Jay Kreps,你就职于 LinkedIn 公司。
LinkedIn 作为社交网络平台,用户规模和数据量现在快速增长,同时内部存在多种数据传递和处理需求,比如用户行为跟踪、日志收集、数据同步等。
你决定开发一个可以解决公司日志收集和数据管道问题的组件,所以需要满足高吞吐量,持久化存储,良好的扩展性和容错能力等特性。
由于你很喜欢弗兰兹・卡夫卡的作品,觉得其风格独特且富有深意,所以你给这个项目起名叫做 kafka。
自此,一个叫做 kafka 的组件开始存在!

kafka 是什么

Kafka 是一款开源的分布式流处理平台,核心功能是高效地接收、存储和传递大规模的实时数据流。
它的本质可以理解为 “分布式的消息队列 + 流处理工具”,既解决了传统消息队列的性能瓶颈,又拓展了实时数据处理的能力,是构建实时数据管道、事件驱动架构的核心组件。

kafka 的核心

既然是一个消息队列,那么就可以来进行一些简单的核心设计了

1. Producer(生产者)

2. Consumer(消费者)

3. Topic(主题)

这是一个消息队列比较简单的部分了,由生产者将消息放入特定的主题,然后由消费者到特定的主题进行消费
因为你要满足高吞吐量的要求,你想到,可以再次将 Topic 分开,每一个都拥有独立的处理能力,也就是说,每一个都是一个队列,你将每个分开的 Topic 叫做

4. Partition(分区)

由于这是一个分布式的组件, 加上要提升组件的可靠性,你想着可以增加几个副本来保证存储不丢失,同时也可以在当前分区不可以使用的时候,进行使用,所有有一个被称为首领副本(Leader Replica),负责处理读写请求;其他为跟随者副本(Follower Replica),仅同步首领副本的数据。当首领副本故障时,会从跟随者中选举新的首领。

5. Replica(副本)

你以前使用数组实现过简单的队列,你知道,使用数组的索引来表示当前队列的顺序,你也设计了一个相同的东西,来表示当前消息在分区中为位置,你将他称为

6. Offset (偏移量)

接下来你想实现消息队列的消费问题,一个消息只被一个消费者消费是比较简单的,但是有场景要求必须实现多个消费者组消费一条消息,你想到可以有一个消费组的概念,消息是按照消费者组进行消费的,当消费者组中只有一个消费者的时候,就实现了点对点模式,当有多个消费者的时候就实现了发布订阅模式

7. Consumer Group(消费者组)

因为是一个分布式的集群,所以你将这个集群称为kafka,而其中的每一个节点,你称为

8. Broker(代理)

因为 Partition 是一个独立可运行的单位,所以你将 Partition 放在不同的 broker 上, 提高可靠性和吞吐量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/934443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

12. 对话框

一、对话框对话框窗口是一个用来完成简单任务或者和用户进行临时交互的顶层窗口,通常用于输入信息、确认信息或者提示信息。Qt Quick 提供了一系列的标准对话框,如 FileDialog、ColorDialog、MessageDialog、FontDia…

2024ICPC区域赛香港站

define时间:#define int long long #define ind long double #define yes cout << "Yes" #define no cout << "No" #define pii pair<long long, long long> #define all(x) (…

AI产品经理要了解的算法有哪些?

中世纪拉丁语“algorismus”指的是用印度数字进行四个基本数学运算——加法,减法,乘法和除法的程序和捷径。后来,术语“算法”被人们用作表示任何逐步的逻辑过程,并成为计算逻辑的核心。 算法的历史可以分为三个阶…

一位印度小哥逆袭成为谷歌数据科学家的心路历程 - 教程

一位印度小哥逆袭成为谷歌数据科学家的心路历程 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&q…

基于selenium的网页自动搜索

第一节 通过简单的百度网页打开学习selenium库的基本功能。1 from selenium import webdriver2 from selenium.webdriver.chrome.service import Service3 from selenium.webdriver.chrome.options import Options4 fr…

MacOS Nginx

查看是否安装:brew info nginx 安装:brew install nginx 卸载:brew uninstall nginx 查看版本:nginx -v 安装目录:/opt/homebrew/Cellar/nginx/1.29.0 (27 files, 2.5MB) 根目录:Docroot is: /opt/homebrew/var/…

缓存的击穿、雪崩、穿透在你项目中的场景是什么

在我们的 OJ 平台中,为了保护数据库、提升响应速度,我设计了一套缓存防护体系: 缓存穿透: 针对恶意请求或不存在的题目 ID,我们用布隆过滤器提前过滤掉无效请求,误判率控制在 0.13% 以下,保护数据库不被大量无效…

[WC2021] 表达式求值

给定一个式子,包含 >,<,? 或者 \([0,m)\) 中的一个数字。其中每个数字代表一个数。 > 代表返回两边的最大值,< 代表返回两边的最小值,? 表示你要在上文的两个符号中选择一个符号替换它。 假设有 \(…

Set集合

无索引 Hashset主注意: LinkedHashset: 存取有顺序其余和hashset一样

JAVA - LinkedList 与 ArrayList 区别和 LinkedList 的四大接口解析

什么是 LinkedListLinkedList 就像一个火车车厢队列。每个“车厢”里装着一个数据(元素),而且每个车厢都知道:自己前面是哪节车厢(previous),自己后面是哪节车厢(next),所以它是一种 “链式结构”。 不像 Ar…

苍穹外卖第三天(Swagger、@RequestParam和@RequestBody的使用场景、@PostMapping和@RequestMapping的区别、对象属性拷贝、@Insert注解)

一、Swagger Swagger是一个用于生成、描述、文档化可视化API的工具(框架)。直接使用Swagger会比较繁琐,所以我们用到了Knife4j框架,它对Swagger进行了封装,简化了相应的操作。 1、Knife4j的使用方式: (1)导入K…

Git 多账号管理

# 新建空白文件夹 mkdir <YOUR PROJECT> # 初始化仓库 git init # 配置当前仓库账号 git config user.name "<YOUR NAME>" git config user.email "<YOUR EMAIL>" # 给当前账号…

完整教程:一文读懂费用分析:定义、分类与成本费用区别

完整教程:一文读懂费用分析:定义、分类与成本费用区别2025-10-10 21:48 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; …

Hyper Server 2019安装I226-V网卡驱动

背景:Hyper-V Server 2019 安装完提示找不到活动的网络适配器 网卡型号:Intel I226-V 以下内容以Hyper-V Server 2019和Intel I226-V网卡为例,其他系统版本(NT6以上)和同系列网卡,操作大同小异,可参考进行。 由…

P10201 永恒

rt好题。 对于一次询问 \((x_1,y_1)\) 到 \((x_2,y_2)\),显然若两点不在同一个联通块中则无解。考虑在同一个联通块中的答案。 我们对整张图进行黑白染色。则有结论:若黑色/白色格点存在不同的数,则一定有解。 证明…

CF1209H tj

zd 讲的啥玩意啊。 题意 你初始的能量为 \(0\),每秒会回复一点能量,同时你每秒可以花 \(x\in [0,2]\) 点能量行走 \(x\) 的距离。 同时地上会有 \(n\) 个传送带,传送带的基础速度为 \(s_i\),求从 \(0\) 走到 \(L\)…

AirBattery - 在Mac上实时监控所有苹果设备电量

AirBattery是一款专为Mac设计的电池监控工具,能够实时显示iPhone、iPad、Apple Watch等苹果设备的电量信息,支持Dock栏、状态栏和小组件显示,让您随时掌握所有设备的电池状态。项目简介 AirBattery 是一款功能强大的…

HTML学习日记

2025.10.10 打卡HTML中尽量不要省略结束标签,而且空元素最好写<br />而不是<br>,这样子做是保证每一个元素都被关闭(空元素在开始标签中关闭)。 使用小写标签,尽管大写也能解析,但是小写标签更被推荐…

10.10每日总结

今天主要的课程有人机交互和机器学习,还有大数据的作业题差一道没完成(用hbase建表),后天就是外语能力大赛的初赛了,加油!

二分图与网络流 Trick

dag 最大独立集(也叫最长反链)Dilworth 定理:一个 dag 中最大独立集的大小,等于其偏序集的最小不可重链覆盖的大小。听着很神秘,实际是这样: 偏序集:对于每一个点三元组 \((i, k, j)\),如果原图中有边 \((i, k…