Starrocks的主键表涉及到的MOR Delete+Insert更新策略

Starrocks的主键表涉及到的MOR Delete+Insert更新策略

web/2025/7/5 22:07:34/文章来源:https://blog.csdn.net/monkeyboy_tech/article/details/147931152

背景

写这个文章的作用主要是做一些总结和梳理，特别是正对大数据场景下的实时写入更新策略 COW 和 MOR 以及 Delete+Insert 的技术策略的演进，
这也适用于其他大数据的计算存储系统。该文章主要参考了Primary Key table.

分析总结

Starrocks 的主键表主要是用来加速实时更新的效率，以及在做Adhoc查询的时候能够加速查询速度。在paimon等数据表格式中，一开始都是采用的MOR的策略来达到实时写入的目的，但是在读取的时候，就得进行合并的操作才能获取真正的数据，这种方式虽然能加速数据的写入速度，但是在读取的时候就会比较慢，采用Delete+Insert的方式，只会在写入的时候在DelVector增加一个标志位，读取的时候，只读最新的数据即可。大大的缩短了，数据读取的时间。

Starrocks的Unique表和Aggreate表采用的是 MOR 的策略,这个会存在读放大的问题。除此之外，由于存在Merge操作,谓词和索引也不能下推到底层的数据源中，即使下推了，也不能起到过滤的作用，这个严重的影响到了查询的效率。

对于Starrocks的主键索引，读写主键表的路程如下（参考Starrocks的官方文档)：

对于写: Starrocks 先把对应的tablets的主键索引加载到内存，对于删除操作，Starrocks首先使用主键索引找到每行对应的数据位置,并在DelVector中把数据行标记为删除。对于更新操作，会转换为Delete + insert操作，除了在DelVector增加删除标志外，还会写入最新的数据，同时主键索引也会被更新。
对于读: 由于历史的数据在写入的时候，已经被标志为了删除，所以只需要读取主键索引对应的信息就可以了，历史数据不需要再进行合并了。并且当底层的数据扫描的时候，可以利用谓词以及各种索引去减少扫描的数据量。因此查询性能得到大大的提升。

注意：

DelVector 是 Rowset 级别的
主键索引会记录pk到rowsetId + segementId + rowId的映射关系

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/79677.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C 语言_常见排序算法全解析

C 语言_常见排序算法全解析

排序算法是计算机科学中的基础内容，本文将介绍 C 语言中几种常见的排序算法，包括实现代码、时间复杂度分析、适用场景和详细解析。一、冒泡排序（Bubble Sort）基本思想：重复遍历数组，比较相邻元素，将较大元素交换到右侧。代码实现： void bubbleSort(int arr[], i…

阅读更多...

JIT+Opcache如何配置才能达到性能最优

JIT+Opcache如何配置才能达到性能最优

首先打开php.ini文件，进行配置 1、OPcache配置 ; 启用OPcache opcache.enable1; CLI环境下启用OPcache（按需配置） opcache.enable_cli0; 预加载脚本（PHP 7.4，加速常用类） ; opcache.preload/path/to/prel…

阅读更多...

Python训练打卡Day23

Python训练打卡Day23

机器学习管道 pipeline 基础概念 pipeline在机器学习领域可以翻译为“管道”，也可以翻译为“流水线”，是机器学习中一个重要的概念。在机器学习中，通常会按照一定的顺序对数据进行预处理、特征提取、模型训练和模型评估等步骤，以…

阅读更多...

GPU SIMT架构的极限压榨：PTX汇编指令级并行优化实践

GPU SIMT架构的极限压榨：PTX汇编指令级并行优化实践

点击 “AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。一、SIMT架构的调度哲学与寄存器平衡艺术 1.1 Warp Scheduler的调度策略解构在NVIDIA GPU…

阅读更多...

HarmonyOS 【诗韵悠然】AI古诗词赏析APP开发实战从零到一系列（二、项目准备与后台服务搭建）

HarmonyOS 【诗韵悠然】AI古诗词赏析APP开发实战从零到一系列（二、项目准备与后台服务搭建）

在开发一款面向HarmonyOS平台的应用程序——【诗韵悠然】AI古诗词赏析APP时，选择了流行Go语言作为后端开发语言，并使用了go-zero微服务框架来搭建服务接口。本文将详细介绍项目准备和后台服务搭建的过程，帮助大家更好地理解和掌握go-zero框架…

阅读更多...

QT5.14安装以及新建基础项目

QT5.14安装以及新建基础项目

进入qt中文网站：Qt | 软件开发全周期的各阶段工具额，考虑新手可能还是找不到，我就分享一下我下载的的吧通过网盘分享的文件：qt-opensource-windows-x86-5.14.2.exe 链接:https://pan.baidu.com/s/1yQTRp-b_ISje5B3UWb7Apw?pw…

阅读更多...

深入解析 I/O 模型：原理、区别与 Java 实践

深入解析 I/O 模型：原理、区别与 Java 实践

一、I/O 模型的核心概念 I/O 操作的本质是数据在用户空间（应用程序内存）和内核空间（操作系统内核内存）之间的传输。根据数据准备与拷贝阶段的处理方式不同，I/O 模型可分为以下五类： 阻塞 I/O（…

阅读更多...

EMQX v5.0通过连接器和规则同步数据

EMQX v5.0通过连接器和规则同步数据

1 概述 EMQX数据集成功能，帮助用户将所有的业务数据无需额外编写代码即可快速完成处理与分发。数据集成能力由连接器和规则两部分组成，用户可以使用数据桥接或 MQTT 主题来接入数据，使用规则处理数据后，再通过数据桥接将数据发…

阅读更多...

重构门店网络：从“打补丁“到“造地基“的跨越

重构门店网络：从“打补丁“到“造地基“的跨越

您是否遇到过这样的窘境？ 新店开张要等一周，就为装根网线； 偏远地区门店三天两头断网，顾客排长队却结不了账； 总部想看实时数据，结果收到一堆乱码报错； 总部ERP系统升级，2000家门…

阅读更多...

PH热榜 | 2025-05-13

PH热榜 | 2025-05-13

1. FirstQuadrant 标语：通过以人为本的人工智能来最大化B2B销售介绍：销售人工智能，帮助创始人和收益团队提高效率，保持组织有序，并促成更多交易。它通过简化销售幕后工作，确保每个细节都不会遗漏。产品…

阅读更多...

【即插即用涨点模块】【上采样】CARAFE内容感知特征重组：语义信息与高效计算两不误【附源码】

【即插即用涨点模块】【上采样】CARAFE内容感知特征重组：语义信息与高效计算两不误【附源码】

《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

阅读更多...

esp32硬件支持AT指令

esp32硬件支持AT指令

步骤1：下载AT固件从乐鑫官网或Git鑫GitHub仓库（https://github.com/espressif/esp-at）获取对应ESP32型号的AT固件（如ESP32-AT.bin）。步骤2：安装烧录工具使用 esptool.py（命令行工具&#…

阅读更多...

【神经网络与深度学习】局部最小值和全局最小值

【神经网络与深度学习】局部最小值和全局最小值

引言在机器学习和优化问题中，目标函数的优化通常是核心任务。优化过程可能会产生局部最小值或全局最小值，而如何区分它们并选择合适的优化策略，将直接影响模型的性能和稳定性。在深度学习等复杂优化问题中，寻找全局最小值往往…

阅读更多...

链表的面试题4之合并有序链表

链表的面试题4之合并有序链表

这篇文章我们继续来讲链表中很经典的面试题：合并有序链表。目录迭代递归我们首先来看一下这张图片里面的要求，给你两个链表，要求把他们按照从小到大的方式排列。这里涉及到几个问题，首先，我们的头节点是不是要…

阅读更多...

flea-cache使用之Redis哨兵模式接入

flea-cache使用之Redis哨兵模式接入

Redis哨兵模式接入 1. 参考2. 依赖3. 基础接入3.1 定义Flea缓存接口3.2 定义抽象Flea缓存类3.3 定义Redis客户端接口类3.4 定义Redis客户端命令行3.5 定义哨兵模式Redis客户端实现类3.6 定义Redis哨兵连接池3.7 定义Redis哨兵配置文件3.8 定义Redis Flea缓存类3.9 定义抽象Flea…

阅读更多...

OpenAI for Countries：全球AI基础设施的“技术基建革命”

OpenAI for Countries：全球AI基础设施的“技术基建革命”

2025年5月7日，OpenAI宣布启动“OpenAI for Countries”计划，目标是为全球各国构建本土化的AI基础设施，提供定制化服务。这一计划被视为其“星际之门”项目的全球化延伸，以技术合作为核心，覆盖数据中心建设、模型适配与…

阅读更多...

Linux精确列出非法 UTF-8 字符的路径或文件名

Linux精确列出非法 UTF-8 字符的路径或文件名

Docker构建的时候报错：failed to solve: Internal: rpc error: code = Internal desc = grpc: error while marshaling: string field contains invalid UTF-8 1、创建一个test.sh文件 find . -print0 | while IFS= read -r -d file;

阅读更多...

FFmpeg在Android开发中的核心价值是什么？

FFmpeg在Android开发中的核心价值是什么？

FFmpeg 在 Android 开发中的核心价值主要体现在其强大的多媒体处理能力和灵活性上，尤其在音视频编解码、流媒体处理及跨平台兼容性方面具有不可替代的作用。以下是具体分析： --- 1. 强大的音视频编解码能力 - 支持广泛格式：FFmpeg 支持几乎所…

阅读更多...

自我奖励语言模型：突破人类反馈瓶颈

自我奖励语言模型：突破人类反馈瓶颈

核心思想自我奖励语言模型提出了一种全新的语言模型对齐范式。传统方法如RLHF或DPO依赖人类反馈数据训练固定的奖励模型，这使模型的能力受限于人类标注数据的质量和数量。论文作者认为，要实现超人类能力的AI代理，未来的模型需要突破人类反馈…

阅读更多...

5. 动画/过渡模块 - 交互式仪表盘

5. 动画/过渡模块 - 交互式仪表盘

5. 动画/过渡模块 - 交互式仪表盘案例：数据分析仪表盘 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><style type"text/css">.dashboard {font-family: Arial…

阅读更多...

最新文章