【每天一个知识点】湖仓一体(Data Lakehouse)

“湖仓一体”(Data Lakehouse)是一种融合了数据湖(Data Lake)数据仓库(Data Warehouse)优势的新型数据架构。它既继承了数据湖对多类型数据的灵活存储能力,也具备数据仓库对结构化数据的高效查询与治理能力,成为当前大数据架构演进的重要方向。


一、什么是“湖仓一体”?

湖仓一体(Data Lakehouse)是指在同一平台中同时具备数据湖的存储能力与数据仓库的分析处理能力的架构模式。该架构支持将结构化、半结构化和非结构化数据统一存储在数据湖中,并通过增强的数据管理机制与计算引擎,实现类数据仓库的性能和可靠性,从而打通“存”和“用”的壁垒。


二、核心优势

  1. 统一存储,打破数据孤岛
    将企业内各业务系统、日志系统、IoT、API等产生的数据统一汇入一个底层存储系统(如HDFS、S3),避免重复建设和数据搬运。

  2. 灵活的数据建模机制
    支持 schema-on-read(按需建模)与 schema-on-write(预建模型)双模式,兼顾灵活性与一致性。

  3. 支持多种计算与查询引擎
    与Spark、Presto、Trino、Flink、Hive、ClickHouse、Delta Lake、Iceberg等组件无缝集成,既支持实时计算,也支持离线批处理。

  4. 增强的数据治理能力
    通过统一元数据管理、数据血缘、数据质量控制,实现数据资产可观测、可审计、可管理。

  5. 大规模高性能分析
    引入列式存储、缓存加速、向量化执行等技术,在大数据场景下实现高性能 OLAP 分析,媲美传统数据仓库。

  6. 成本更优
    相比传统数据仓库高昂的计算与存储成本,湖仓一体架构使用云对象存储与开源计算引擎,极大降低 TCO(总体拥有成本)。


三、湖仓一体与传统架构的比较

特征数据湖数据仓库湖仓一体
数据类型支持所有类型结构化所有类型
存储成本较低
分析性能
数据治理
架构复杂度
场景适应性AI/探索分析BI/固定报表通用(BI + AI + R&D)

四、典型技术生态(开源/商业)

功能模块开源代表商业代表
存储引擎Apache Hudi、Delta Lake、Apache IcebergDatabricks Lakehouse、Aliyun DLF、腾讯 TCHouse
计算引擎Spark、Flink、Trino、ClickHouseSnowflake、StarRocks、Kyligence
元数据管理Apache Hive Metastore、Amundsen、DataHubAWS Glue、阿里DataWorks
数据治理OpenLineage、MarquezCollibra、Informatica
可视化分析Superset、RedashTableau、Power BI、Quick BI

五、典型应用场景

  • 数据要素平台与数据资产交易:湖仓一体架构为“数据可用不可见”的共享模式提供高性能、低成本的底座支撑。

  • 金融风控与合规审计:通过元数据血缘和数据审计功能,满足强治理和审计要求。

  • 多模态数据分析:图像、文本、行为轨迹等数据整合分析,适合AI场景。

  • 政务大数据平台:支撑数据统一汇聚、共享交换、授权分析等政务需求。

  • 工业互联网与IoT平台:处理高并发、多维度、时序数据,并进行复杂实时分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux | mdadm 创建软 RAID

注:本文为 “Linux mdadm RAID” 相关文章合辑。 略作重排,未整理去重。 如有内容异常,请看原文。 Linux 下用 mdadm 创建软 RAID 以及避坑 喵ฅ・ﻌ・ฅ Oct 31, 2023 前言 linux 下组软 raid 用 mdadm 命令,multi…

Unity自定义shader打包SpriteAtlas图集问题

Unity打包图集还是有一些坑的,至于图集SpriteAtlas是什么请参考我之前写的文章:【Sprite Atlas】Unity新图集系统SpriteAtlas超详细使用教程_spriteatlas 使用-CSDN博客 问题: 今天碰到的问题是,shader绘制的时候,因…

如何用 OceanBase 的 LOAD DATA 旁路导入进行大表迁移

前言 在日常工作中,我们时常会遇到需要将某个大数据量的单表进行迁移的情况。在MySQL中,针对这样的大表,我们通常会选择先将原表导出为csv格式,然后利用LOAD DATA语法来导入csv文件,这种方法相较于mysqldump在效率上有…

VR 互动实训的显著优势​

(一)沉浸式学习,提升培训效果​ 在 VR 互动实训中,员工不再是被动的知识接受者,而是主动的参与者。以销售培训为例,员工戴上 VR 设备,就能置身于逼真的销售场景中,与虚拟客户进行面对…

OpenCV 第6课 图像处理之几何变换(重映射)

1. 概述 简单来说,重映射就是把一副图像内的像素点按照规则映射到到另外一幅图像内的对应位置上去,形成一张新的图像。 因为原图像与目标图像的像素坐标不是一一对应的。一般情况下,我们通过重映射来表达每个像素的位置(x,y),像这样: g(x,y)=f(h(x,y)) 在这里g()是目标图…

Java虚拟机 - 程序计数器和虚拟机栈

运行时数据结构 Java运行时数据区程序计数器为什么需要程序计数器执行流程虚拟机栈虚拟机栈作用虚拟机栈核心结构运行机制 Java运行时数据区 首先介绍Java运行时数据之前,我们要了解,对于计算机来说,内存是非常重要的资源,因为内…

MySQL数据库——支持远程IP访问的设置方法总结

【系列专栏】:博主结合工作实践输出的,解决实际问题的专栏,朋友们看过来! 《项目案例分享》 《极客DIY开源分享》 《嵌入式通用开发实战》 《C语言开发基础总结》 《从0到1学习嵌入式Linux开发》 《QT开发实战》 《Android开发实…

CSS- 4.6 radiu、shadow、animation动画

本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 HTML系列文章 已经收录在前端专栏,有需要的宝宝们可以点击前端专栏查看! 点…

排序算法之基础排序:冒泡,选择,插入排序详解

排序算法之基础排序:冒泡、选择、插入排序详解 前言一、冒泡排序(Bubble Sort)1.1 算法原理1.2 代码实现(Python)1.3 性能分析 二、选择排序(Selection Sort)2.1 算法原理2.2 代码实现&#xff…

第十节第一部分:常见的API:Math、System、Runtime

Math类介绍及常用方法(了解知道即可) System类介绍及常用方法(了解知道即可) Runtime类介绍及常用方法(了解知道即可) 代码: 代码一:Math类 package com.itheima.d14_math;public …

智能体间协作的“巴别塔困境“如何破解?解读Agent通信4大协议:MCP/ACP/A2A/ANP

AI 智能体的兴起触发了AI应用协作的新领域。这些智能体不再局限于被动的聊天机器人或独立的系统,它们现在被设计用于推理、计划和协作ーー跨任务、跨域甚至跨组织。但随着这一愿景成为现实,一个挑战很快浮出水面: 智能体如何以一种安全、可伸…

项目进度延误,如何按时交付?

项目进度延误可以通过加强计划管理、优化资源分配、强化团队沟通、设置关键里程碑和风险管理机制等方式来实现按时交付。加强计划管理、优化资源分配、强化团队沟通、设置关键里程碑、风险管理机制。其中,加强计划管理尤为关键,因为明确而详细的计划能提…

详解ip地址、子网掩码、网关、广播地址

1. IP 地址 定义:IP 地址是网络设备在网络中的唯一标识,用于标识设备的网络位置,类似于现实中的门牌号。它分为 IPv4(如 192.168.1.5)和 IPv6(如 240e:305:3685:8100:a00:27ff:fefb:56b8)。 示…

为 Windows 和 Ubuntu 中设定代理服务器的详细方法

有时下载大模型总是下载不出来,要配置代理才行 一、Windows代理设置 ① 系统全局代理设置 打开【设置】→【网络和Internet】→【代理】。 在【手动设置代理】下,打开开关,输入: 地址:10.10.10.215 端口:…

鸿蒙OSUniApp 实现的表单验证与提交功能#三方框架 #Uniapp

UniApp 实现的表单验证与提交功能 前言 在移动端应用开发中,表单是用户与应用交互的重要媒介。一个好的表单不仅布局合理、使用方便,还应该具备完善的验证与提交功能,以确保用户输入的数据准确无误。本文将分享如何在 UniApp 中实现表单验证…

前端的面试笔记——HTMLJavaScript篇(二)前端页面性能检测

前端页面性能检测和判定是优化用户体验的核心环节,需要结合实验室数据(Lab Data)、现场数据(Field Data)和行业标准综合评估。以下是主流方法、工具及判定标准的详细解析: 一、性能检测的核心维度与指标 …

再来1章linux系列-19 防火墙 iptables 双网卡主机的内核 firewall-cmd firewalld的高级规则

学习目标: 实验实验需求实验配置内容和分析 (每一个设备的每一步操作)实验结果验证其他 学习内容: 实验实验需求实验配置内容和分析 (每一个设备的每一步操作)实验结果验证其他 1.实验 2.实验需求 图…

LLM-Based Agent综述及其框架学习(五)

文章目录 摘要Abstract1. 引言2. 文本输出3. 工具的使用3.1 理解工具3.2 学会使用工具3.3 制作自给自足的工具3.4 工具可以扩展LLM-Based Agent的行动空间3.5 总结 4. 具身动作5. 学习智能体框架5.1 CrewAI学习进度5.2 LangGraph学习进度5.3 MCP学习进度 参考总结 摘要 本文围绕…

游戏引擎学习第298天:改进排序键 - 第1部分

关于向玩家展示多个房间层所需的两种 Z 值 我们在前一天基本完成了为渲染系统引入分层 Z 值的工作,但还没有完全完成所有细节。我们开始引入图形渲染中的分层概念,即在 Z 轴方向上拥有多个独立图层,每个图层内部再使用一个单独的 Z 值来实现…

一些C++入门基础

关键字 图引自 C 关键词 - cppreference.com 命名空间 命名空间解决了C没办法解决的各类命名冲突问题 C的标准命名空间:std 命名空间中可以定义变量、函数、类型: namespace CS {//变量char cs408[] "DS,OS,JW,JZ";int cs 408;//函数vo…