Apache Kafka 是一个分布式流数据平台,用于高吞吐量、持久性、可扩展的发布和订阅消息。它具有高度的可靠性,被广泛用于构建实时数据流处理、日志收集和数据管道等应用。
基本架构
1. 主题(Topic):
- 主题是消息的逻辑分类
- 生产者将消息发布到特定的主题中,而消费者可以订阅一个或多个主题来接收消息
- 主题可以有多个分区,以实现横向扩展和负载均衡
2. 分区(Partition):
- 分区是主题的物理存储单元,将主题分成多个部分
- 每个分区在磁盘上都有一个日志文件,用于持久性存储消息
- 每个主题可以被分为多个分区,每个分区都是一个有序的、不可变的消息序列
- 分区可以分布在不同的 Broker 上,以实现数据的并行处理和负载均衡
3. 副本(Replica):
- Kafka 支持副本机制,每个分区可以有多个副本,其中一个是领导者(Leader),其余是追随者(Follower)
- 主副本负责处理读写请求,而从副本只负责复制主副本的数据
- 副本是分区的备份,用于提供冗余和容错性
4. 生产者(Producer):