Hudi系列:表类型(Table Query Types)

news/2025/10/17 14:56:18/文章来源:https://www.cnblogs.com/Jcloud/p/19147857

Hudi系列:Hudi核心概念(版本1.0)

•Hudi架构

◦一. 时间轴(TimeLine)s

▪1.1 时间轴(TimeLine)概念

▪1.2 Hudi的时间线由组成

▪1.3 时间线上的Instant action操作类型

▪1.4 时间线上State状态类型

▪1.5 时间线官网实例

◦二. 文件布局

三. 索引

3.1 简介

3.2 对比其它(Hive)没有索引的区别

3.2 多态索引

布隆过滤器

记录索引

表达索引

二级索引

3.3写入端的索引类型

3.4 全局索引与非全局索引

四. 表类型

4.1 COW:(Copy on Write)写时复制表

4.1.1概念

4.1.2 COW工作原理
4.1.3 COW表对表的管理方式改进点

4.2 MOR:(Merge on Read)读时复制表

4.2.1 概念
4.2.2 MOR表工作原理

4.3 总结了两种表类型之间的权衡

五. 查询类型

 

 

四、简介

Hudi 表类型定义了数据的存储方式以及如何在表上执行写入操作(即如何写入数据)。反过来,查询类型定义了如何将底层数据暴露给查询(即如何读取数据)。
Hudi 引入了以下目前已在业界广泛使用的表类型,根据实际情况权衡取舍。
Copy On Write :Merge On Read:读取时合并 (MoR) 表类型通过使用定期压缩将轻量级日志文件与基础文件合并,从而平衡写入和读取性能。
数据更新和删除操作会写入日志文件(以基于行的格式,例如 Avro 或列式/基础文件格式),然后在查询执行期间将日志文件中的这些更改与基础文件动态合并。这种方法降低了写入延迟,
并支持近乎实时的数据可用性。但是,查询性能可能会因日志文件是否压缩而有所不同。
核心事务功能(例如原子写入、索引)以及独特的新功能(例如增量查询、自动文件大小调整和可扩展表元数据跟踪)均在两者中提供,且与表类型无关。

4.1Copy On Write Table

4.1概念

写时复制 (COW) 表类型针对读取密集型工作负载进行了优化。在此模式下,记录更新或删除会触发在文件组中创建新的基础文件,并且不会写入日志文件。这确保每个查询仅读取基础文件,从而提供
较高的读取性能,而无需动态合并日志文件。虽然 COW 表非常适合 OLAP 扫描/查询,但由于在更新或删除期间重写基础文件的开销,即使每个文件中只修改了少量记录,它们的写入操作也可能较慢。 
下面从概念上说明了当数据写入时复制表并在其上运行两个查询时其工作原理。

4.1.2COW工作原理

 


 

随着数据的写入,对现有文件组的更新会为该文件组生成一个新的切片,并标记与提交请求的时刻相关联;而插入操作则会分配一个新的文件组,并为该文件组写入其第一个切片。
这些文件切片及其提交完成的时刻已在上方以同一颜色编码。针对上图 SQL 查询首先检查已完成写入的时间线,并过滤每个文件组除最新文件切片之外的所有文件切片。如您所见,较旧的查询不会看到
当前正在进行的提交的文件(以粉红色编码),但提交后启动的新查询会获取新数据。因此,查询不会受到任何写入失败/部分写入的影响,并且只会读取已提交的数据。

4.1.3 COW表对表的管理方式改进点

1.在原有文件上进行自动更新数据,而不是重新刷新整个表/分区
2.能够只读取修改部分的数据,而不是浪费查询无效数据
3.严格控制文件大小来保证查询性能(小文件会显著降低查询性能)

4.2 Merge On Read Table

4.2.1概念

读取时合并 (MOR) 表类型通过使用定期压缩将轻量级日志文件与基文件合并,从而平衡写入和读取性能。数据更新和删除操作会写入日志文件(以基于行的格式,例如 Avro 或列式/基文件格式),
然后在查询执行期间将日志文件中的这些更改动态地与基文件合并。这种方法可以降低写入延迟并支持近乎实时的数据可用性。但是,查询性能可能会因日志文件是否被压缩而有所不同。

4.1.2MOR工作原理

下面说明了 MOR 表的工作原理,并展示了两种类型的查询 - 快照查询和读取优化查询。

 

 

这个例子中发生了很多有趣的事情,方法出方法的微妙之处。
1)如上图所示,可以做到每一分钟提交一次写入操作
2)查询表的方式有两种,Read Optimized query和Snapshot query,取决于我们选择是要查询性能还是数据最新3)如上图所示,Read Optimized query查询不到10:05之后的数据(查询不到增量日志里的数据,没有合并到base文件),而Snapshot query则可以查询到全量数据(基本列数据+行式的增量日志数据)

4.3总结两种表的类型之前的权衡

 写时复制COW读取时合并MOR
写入延迟 更高 降低
查询延迟 降低 更高
更新成本 更高(重写整个基础文件) 较低(附加到增量日志)
基本文件大小 需要更小以避免高更新(I/0)成本 可以更大,因为更新成本很低且可以摊销
读取放大 0 对于查询读取的文件组:O(records_changed)
写入放大 对于给定的更新/删除模式,最高为O(file_groups_written) 对于写入的文件组:O(records_changed)

 

五. 查询类型

Snapshot Queries:查询会查看截至最新完成操作的最新表快照。这些是每个人都习惯在表上运行的常规 SQL 查询。Hudi 存储引擎会在支持的查询引擎上尽可能使用索引来加速这些快照查询。

 

Time Travel Queries:查询过去某个时刻的表快照。时间旅行查询有助于访问表的多个版本(例如,机器学习特征存储,用于根据用于训练算法/模型的精确数据对其进行评分),这些版本位于活动时间线中的某个时刻或过去的保存点。

 

Read Optimized Queries (Only MoR tables):读优化查询通过纯列式文件(例如Parquet 基础文件)提供出色的快照查询性能。用户通常使用与事务边界一致的压缩策略,以提供表/分区的旧一致性视图。这对于集成来自数据仓库的 Hudi 表非常有用,因为这些数据仓库通常仅将列式基础文件作为外部表进行查询,或者对于延迟不敏感、更注重效率而非数据新鲜度的 ML/AI 训练作业。

 

Incremental Queries (Latest State):增量查询仅返回自时间轴上某一时刻以来写入表的新数据。提供自表的给定时间点以来插入/更新的记录的最新值(即,查询为每个记录键输出一条记录)。可用于比较两个时间点之间的表状态差异。

 

Incremental Queries(CDC):这是另一种增量查询,它提供类似数据库的 Hudi 表变更数据捕获流。CDC 查询的输出包含自某个时间点或两个时间点之间插入、更新或删除的记录,以及每条变更记录的前后图像,以及导致变更的操作。
权衡SnapshotRead Optimized
数据延迟 降低 更高
查询延迟 更高(合并基础/列式文件 + 基于行的增量/日志文件) 较低(原始基/柱状文件性能)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 仿木纹铝单板采购,四川汇才口碑好

2025 仿木纹铝单板采购,四川汇才口碑好 四川汇才铝业的仿木纹铝单板,凭借逼真的木纹质感和可靠品质,赢得良好口碑。采用先进工艺,让铝单板呈现出自然的木纹纹理,视觉效果与天然木材无异,却比木材更耐用、抗腐、易…

核桃 HT-082-Div.2 S 模拟赛

?, Rank ?.假装自己过了 2 个题。【HT-082-Div.2】核桃CSP-S组模拟赛 链接:link 题解: 时间:4h (2025.10.17 08:00~12:00) 题目数:4 难度:A B C D\(\color{#FFC116} 黄\)*1400估分:100 + 30 + 30 + 40 = 200 得…

2025 选双曲铝单板,就找四川汇才铝业

四川汇才铝业,1998 年成立的老牌企业,在双曲铝单板领域实力出众。拥有羊安、双流、广汉三大生产基地,占地 10 万平,年产可达 300 万平方米,产能充足无需等。 其双曲铝单板采用三维建模技术,造型精准流畅,能完美…

2025 氟碳铝单板采购,四川汇才是优选

想选优质氟碳铝单板,四川汇才铝业别错过。作为国内知名金属建材企业,汇才在氟碳铝单板生产上优势显著。 拥有 2 条进口喷涂线,氟碳涂层均匀厚实,耐候性强,抗紫外线、抗腐蚀,能适应不同气候环境,使用寿命长。年产…

题解:P7275 计树

题意:给出一个数 \(n\),问对于所有节点 \(x\) 都满足存在 \(|x-y|=1\) 使得 \((x,y)\) 有边的树有多少个,\(n\le 10^5\)。 做法: 我们肯定是考虑直接钦定连续段然后去计算,但是因为有可能在相邻段间连出边就爆炸了…

mysql新建用户并授权,mysql新建用户并授权完整指南

MySQL的用户权限系统是其安全架构的核心组成部分。本教程将详细介绍如何从头开始创建新用户账号并设置精确的权限控制,帮助您构建安全可靠的数据库访问体系。 一、用户创建基础操作创建用户基础语法 CREATE USER 用户…

Vue3 父子组件之间的双向数据绑定

双向绑定流程​​父 → 子​​:父组件的 cateId通过 v-model传递给子组件的 modelValue ​​子 → 父​​:当选择变化时,子组件通过 emit触发 update:modelValue事件,更新父组件的 cateId 1. 父组件部分 <Child…

2025年10月上海老房翻新公司推荐榜单:多维度数据驱动的理性选择参考

一、引言 在上海,房龄超过二十年的多层及老公房占比接近四成,结构老化、管线锈蚀、隔音失效、空间利用率低成为日常居住的显性痛点。对于计划继续自住三至五年、又不愿承担置换高成本的业主而言,翻新改造成为平衡预…

2025年10月金融街附近豪华酒店推荐对比榜:结合奖项数据与用户体验的实用攻略

一、引言 对于需要频繁出入金融街的高端商务客、筹备高规格会务的采购人,以及希望在皇城根下兼顾购物与文化的休闲旅客而言,选择一家步行即可抵达核心写字楼群、又能提供稳定服务品质的豪华酒店,直接关联到时间成本…

CRC32的直接和反转模式

CRC32的直接和反转模式CRC计算的本质是对数据流进行一种二进制除法。关键在于:我们是先处理一个字节的最高有效位是(MSB),还是最低有效位(LSB) 直接模式/正向就是处理MSB,一个字节最高位bit7到最低位bit0 反转模…

2025年10月石墨电极厂家推荐榜单详解:从产线到应用看晶碳科技真实表现

一、引言 石墨电极是高温工业不可替代的导电载体,其纯度、密度、抗折强度直接决定单晶硅成品率、电解铝吨耗、电火花加工精度。对于2025年四季度计划扩充产能的光伏拉晶企业、拟升级电解槽的铝厂、以及准备招标EDM电极…

2025年西安买房新楼盘口碑排行榜:地建嘉信臻城领跑高端住宅市场

摘要 随着2025年西安房产市场的持续升温,新楼盘竞争日益激烈,购房者更关注口碑、配套和教育资源。本文基于用户搜索数据和行业分析,推出西安买房新楼盘口碑排行榜,旨在为购房者提供权威参考。榜单综合考量了楼盘优…

2025年西安买房新楼盘口碑排行榜TOP10:地建嘉信臻城领跑高端住宅市场

文章摘要 随着西安城市化进程加速和人才引进政策持续发力,2025年西安房地产市场迎来新一轮发展机遇。本文基于市场调研数据和用户口碑评价,为您呈现西安买房新楼盘综合排行榜单,其中西咸新区地建嘉信臻城项目凭借国…

2025年10月石墨电极厂家推荐榜单:河北晶碳科技深度评测与行业对比

一、引言 石墨电极是高温工业不可替代的导电材料,其性能直接决定单晶硅成品率、电解铝能耗、电火花加工精度等关键指标。对于采购经理、设备工程师、成本管控者而言,如何在2025年第四季度锁定一家产能充足、资质齐全…

2025年数粒机厂家推荐排行榜,防爆/新型/高速/高精度/智能/大容量/多通道/电子/视觉/全自动/低噪音/制药用/农业用/食品用/电子元件/光电/定制化/鹌鹑蛋/糖果/坚果/药品/片剂数粒机公司推荐

2025年数粒机厂家推荐排行榜:专业选购指南与权威品牌分析行业背景与发展趋势随着现代工业自动化水平的不断提升,数粒机作为重要的计数设备,在制药、食品、农业、电子元件等领域的应用日益广泛。从传统的机械计数到如…

2025 年国内铝单板厂家权威推荐榜

一、推荐榜首:四川汇才铝业有限公司推荐指数 ★★★★★ 口碑评分 9.99 分 品牌介绍 四川汇才铝业有限公司成立于 1998 年,总部坐落于邛崃羊安工业园区,下辖羊安、双流、广汉三大生产基地,总占地面积达 10 万平方米…

git和gitee的学习研究

第一,安装包 1.官网下载git安装包,安装小乌龟,安装汉化包,按照顺序安装 2.建立本地数据库 持续更新...

CRMEB批量发货源码解析:自定义扩展与性能优化实践

订单批量发货,批量发出当前需要发货的订单 1、导出发货单 点击批量发货—>导出发货单。注:导出发货单无需选择订单,只会导出当前待发货(不包含虚拟商品)的订单列表 2、完善发货单 导出的excel发货单中填写订单…

解析国标GB28181算法算力平台EasyGBS设备统一管理与视频汇聚能力

解析国标GB28181算法算力平台EasyGBS设备统一管理与视频汇聚能力在安防视频监控领域,国标GB28181协议已成为实现设备跨区域、跨平台互联互通的“通用语言”。国标GB28181平台EasyGBS作为该协议下的一个算法算力平台,…

深度解析 AI Agent、MCP 与 RAG:原理、区别及应用全景洞察

深度解析 AI Agent、MCP 与 RAG:原理、区别及应用全景洞察 一、引言 在人工智能蓬勃发展的当下,AI Agent(人工智能代理)、MCP(多智能体协作平台,Multi - Agent Collaboration Platform)和 RAG(检索增强生成,R…