11-Kafka

1 Kafka

  • Kafka是一个分布式流式数据平台,它具有三个关键特性

    • Message System: Pub-Sub消息系统
    • Availability & Reliability:以容错及持久化的方式存储数据记录流
    • Scalable & Real time

    在这里插入图片描述

1.1 Kafka架构体系
  • Kafka系统中存在5个关键组件
    • Producer
    • Consume
    • Kafka Cluster
      • Broker:Kafka Server,或Kafka Node
      • Zookeeper: 集群状态存储
    • Connector:连接应用程序和Topic
    • Stream Processor:流处理器,从一个Topic接收并处理流式数据,并将结果存入另一个Topic
  • 还有两个重要逻辑组件
    • Topic
    • Partition

在这里插入图片描述

1.2 Topic和Partition
  • 关于Topic和Partition

    • Topic分类的消息流,相关的消息保存于Partition中

      • 一个Topic中的数据,可以分布保存于一至多个Partition中
      • 每个Partition中,通常存在一个leader,以及一至多个replicas/followers
    • Topic是Producer发布消息,以及consumer消费消息使用的端点

在这里插入图片描述

1.3 Topic中的消息记录
  • 消息及存储方式
    • Kafka中,每个消息记录(record)的标准格式通常由key、value、timestamp和一些metadata组成;
    • 待存入Topic的消息记录未明确指定目标Partition时,Kafka会根据记录的key的hash码选择一个Partition;未明确指定timestamp时,Producer将会使用当前时间(创建时间或附加到日志的时间)作为其时间戳;
    • Kafka将数据持久存储在log.dir参数指定 的目录中,而各topic会映射进该目录的子目录中;
      • Kafka会保留所有记录,无论它们是否已被消费
      • 记录在broker配置中定义的retention period内保留,默认时长为7天(168小时)
    • Kafka基于Pub/Sub和Queue模型构建Topic,它使用消费者组(Consumer Group)的概念将处理任务划分为一组消费者进程并行运行,并且可以将消息广播到多个组中;
1.4 Partition
  • Partition代表Topic中的数据分片,在其它数据库系统中,通常称为replica或shard

    • 每个Partition都是一个按时间排序的不可变记录序列,该序列存储于日志中;
    • 消费者按照记录在日志中的存储顺序读取消息;
    • 每个消息都有一个称为offset的id
  • 能够将一个Topic中的数据并行存储于多个broker上;

  • 支持以冗余机制(复制因子大于1)存储多个副本,并能容忍最多N-1个服务器故障,N为复制

    因子数量;

  • 消费者读取一个Topic时,它将从所有Partition中读取数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532690.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟内存精粹

虚拟内存精粹 标题:虚拟内存精粹 作者:潘建锋 原文:HTTPS://strikefreedom.top/memory-management–virtual-memory 导言 虚拟内存是当今计算机系统中最重要的抽象概念之一,它的提出是为了更加有效地管理内存并且降低内存出错的概…

蓝桥杯真题训练 2019.4题

标题: 数的分解(本题总分:10 分) 【问题描述】 把 2019 分解成 3 个各不相同的正整数之和,并且要求每个正整数都不包 含数字 2 和 4,一共有多少种不同的分解方法? 注意交换 3 个整数的顺序被视…

深度学习自动编译和优化技术调研

深度学习自动编译和优化技术调研 转自:https://moqi.com.cn/blog/deeplearning/ 作者:墨奇科技全栈开发 在墨奇科技,我们需要将一些包含深度神经网络(DNN)的 AI 算法移植到边缘端的设备, 这些设备往往使用 …

三元组数据处理系统

include<stdio.h> include<stdlib.h> define OK 1 define ERROR 0 define OVERFLOW -2 typedef int Status; typedef float ElemType; typedef ElemType *Triplet; // 声明Triplet为ElemType指针类型 //三元组的初始化 Status initTriplet(Triplet &T, E…

Copy-On-Write COW机制

Copy-On-Write COW机制 转自&#xff1a;https://zhuanlan.zhihu.com/p/48147304 作者&#xff1a;Java3y 前言 只有光头才能变强 在读《Redis设计与实现》关于哈希表扩容的时候&#xff0c;发现这么一段话&#xff1a; 执行BGSAVE命令或者BGREWRITEAOF命令的过程中&#xff0c…

实验报告:抽象数据类型的表现和实现

实验报告&#xff1a;抽象数据类型的表现和实现 实验内容 基本要求&#xff1a; 设计实现抽象数据类型“三元组”&#xff0c;要求动态分配内存。每个三元组由任意三个实数的序列构成&#xff0c;基本操作包括&#xff1a;创建一个三元组&#xff0c;取三元组的任意一个分量&…

关于x86、x86_64/x64、amd64和arm64/aarch64

关于x86、x86_64/x64、amd64和arm64/aarch64 转自&#xff1a;https://www.jianshu.com/p/2753c45af9bf 为什么叫x86和x86_64和AMD64? 为什么大家叫x86为32位系统&#xff1f; 为什么软件版本会注明 for amd64版本&#xff0c;不是intel64呢&#xff1f; x86是指intel的开…

实验报告: 线性表的基本操作及应用

实验报告&#xff1a; 线性表的基本操作及应用 实验内容 基本要求&#xff1a; &#xff08;1&#xff09;实现单链表的创建&#xff1b;&#xff08;2&#xff09;实现单链表的插入&#xff1b;&#xff08;3&#xff09;实现单链表的删除 &#xff08;4&#xff09;实现单链…

TVM:源码编译安装

TVM&#xff1a;Linux源码编译安装 笔者环境&#xff1a; OS&#xff1a;Ubuntu 18.04 CMake&#xff1a;3.10.2 gcc&#xff1a;7.5.0 cuda&#xff1a;11.1 编译安装过程总览 本文将简介 tvm 的编译安装过程&#xff0c;包含两个步骤&#xff1a; 通过C代码构建共享库设置相…

第2章线性表的基本使用及其cpp示例(第二章汇总,线性表都在这里)

2.1线性表的定义和特点 【类型定义&#xff1a; *是n个元素的有限序列 *除了第一个元素没有直接前驱和最后一个没有直接后驱之外&#xff0c;其余的每个元素只有一个直接前驱和直接后驱&#xff1b; &#xff08;a1,a2…an&#xff09; 【特征&#xff1a; *有穷性&#xff1…

TVM:通过Python接口(AutoTVM)来编译和优化模型

TVM&#xff1a;通过Python接口&#xff08;AutoTVM&#xff09;来编译和优化模型 上次我们已经介绍了如何从源码编译安装 tvm&#xff0c;本文我们将介绍在本机中使用 tvm Python 接口来编译优化模型的一个demo。 TVM 是一个深度学习编译器框架&#xff0c;有许多不同的模块…

TVM:在树莓派上部署预训练的模型

TVM&#xff1a;在树莓派上部署预训练的模型 之前我们已经介绍如何通过Python接口&#xff08;AutoTVM&#xff09;来编译和优化模型。本文将介绍如何在远程&#xff08;如本例中的树莓派&#xff09;上部署预训练的模型。 在设备上构建 TVM Runtime 首先我们需要再远程设备…

2.2线性表的顺序表

2.2.1线性表的顺序表示和实现------顺序映像 【顺序存储】在【查找时】的时间复杂度为【O(1)】&#xff0c;因为它的地址是连续的&#xff0c;只要知道首元素的地址&#xff0c;根据下标可以很快找到指定位置的元素 【插入和删除】操作由于可能要在插入前或删除后对元素进行移…

TVM:交叉编译和RPC

TVM&#xff1a;交叉编译和RPC 之前我们介绍了 TVM 的安装、本机demo和树莓派远程demo。本文将介绍了在 TVM 中使用 RPC 进行交叉编译和远程设备执行。 通过交叉编译和 RPC&#xff0c;我们可以在本地机器上编译程序&#xff0c;然后在远程设备上运行它。 当远程设备资源有限…

2.3单链表的基本使用及其cpp示例

2.3线性表的链式表现与实现 2.3.1.1单链表 【特点&#xff1a; *用一组任意的存储单元存储线性表的数据元素 *利用指针实现用不同相邻的存储单元存放逻辑上相邻的元素 *每个元素ai&#xff0c;除存储本身信息外&#xff0c;还存储其直接后继的元素&#xff08;后一个元素的地址…

TVM:简介

TVM&#xff1a;简介概述 Apache TVM 是一个用于 CPU、GPU 和机器学习加速器的开源机器学习编译器框架。它旨在使机器学习工程师能够在任何硬件后端上高效地优化和运行计算。本教程的目的是通过定义和演示关键概念&#xff0c;引导您了解 TVM 的所有主要功能。新用户应该能够从…

2.3.3单链表的双向链表

2.3.3双向链表 插入、删除 指在前驱和后驱方向都能游历&#xff08;遍历&#xff09;的线性链表 双向链表的每个结点有两个指针域 【结构】&#xff1a;prior data next 双链表通常采用带头结点的循环链表形式 可理解为首位相接的数据“圈”&#xff0c;每个结点都可以向前…

nvidia-smi 命令详解

nvidia-smi 命令详解 简介 nvidia-smi - NVIDIA System Management Interface program nvidia smi&#xff08;也称为NVSMI&#xff09;为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数…

2.4一元多项式的表示及相加,含cpp算法

2.4一元多项式的表示及相加 n阶多项式的表示&#xff1a; n阶多项式有n1项 指数按升幂排序 【 优点&#xff1a; 多项式的项数可以动态增长&#xff0c;不存在存储溢出的问题插入&#xff0c;删除方便&#xff0c;不移动元素 【表示&#xff1a; 有两个数据域&#xff0c;一…

TVM:使用Tensor Expression (TE)来处理算子

TVM&#xff1a;使用Tensor Expression (TE)来处理算子 在本教程中&#xff0c;我们将聚焦于在 TVM 中使用张量表达式&#xff08;TE&#xff09;来定义张量计算和实现循环优化。TE用纯函数语言描述张量计算&#xff08;即每个表达式都没有副作用&#xff09;。当在 TVM 的整体…