数仓分层介绍

news/2025/10/31 17:30:48/文章来源:https://www.cnblogs.com/chengshaoting/p/19180722

@

目录
  • 数仓分层的意义是什么?
  • 常见的数据分层
    • ODS层: 源数据层
    • DW层: 数据仓库层(也叫作集团数据中心)
    • DA(app)层: 数据应用层
  • 更加细分的数仓分层方案
    • 1 ODS数据源
    • 2 DW数据仓库
      • 2.1 DWD明细层:
      • 2.2 DWB基础数据层:
      • 2.3 DWS服务数据层:
    • 3 DM数据集市:
    • 4 RPT报表应用

数仓分层的意义是什么?

  • 作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如图这般层次清晰、依赖关系直观。
    在这里插入图片描述但是,大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下的图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。
    在这里插入图片描述

因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题,但是,数据分层却可以给我们带来如下的好处:

  1. 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。
  2. 复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题。
  3. 便于维护:当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
  4. 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少重复开发的工作量。
  5. 高性能:数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,尤其对于海量数据的关联查询和复杂查询,所以数据仓库分层有利于实现复杂的统计需求,提高数据统计的效率。

分层本质上是人为划分操作, 可以将某几个库或者某几个表划分在各个层次中, 分层主要的目的: 明确各个层次作用(任务分工) 利用后续维护工作与分工

常见的数据分层

在这里插入图片描述

ODS层: 源数据层

  • 作用: 对接数据源, 用于将数据源中数据采集到ODS层, 会和数据源保持相同粒度(将数据源中数据完整拷贝到ODS层)
  • 注意: 在生产中, 有可能会出现在ODS层之前, 会对数据进行预处理操作
    • 比如, 加载的数据是来自于文本或者CSV格式数据...

DW层: 数据仓库层(也叫作集团数据中心)

  • 作用: 对数据进行统计分析操作, 构建统一宽表统计结果数据, 数据来源于ODS层
  • 注意: 此层主要会根据分析主题, 形成主题统计宽表, 服务DA层

DA(app)层: 数据应用层

  • 作用: 存储分析的结果表, 会对DW层统计宽表, 根据需求要求, 从宽表中获取想要的数据, 将这些数据灌入到DA层

更加细分的数仓分层方案

1 ODS数据源

此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。

2 DW数据仓库

2.1 DWD明细层:

明细层DWD(Data Warehouse Detail):存储明细数据,此数据是最细粒度的事实数据。该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证。(做数据清洗 转化 处理工作) 拉链表也是从这里做

2.2 DWB基础数据层:

数据降维后生(维度退化)成的明细宽表,作为中间数据使用。一般只保留一段周期内的有效数据。(一般是一年) 从维度表抽取字段结合事实表

2.3 DWS服务数据层:

按照主题划分的日统计宽表,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据。(提前聚合 形成统计宽表 Example:统计天 月 年 销售总额 可以在dws层面将销售总额统计出来 然后基于每天数据进行汇总)

3 DM数据集市:

数据集市层,主要职责是建设宽表模型、汇总表模型,比如用户主题宽表、销售主题宽表等。主要作用是支撑数据分析查询以及支持应用所需数据。

4 RPT报表应用

同样也叫作ADS层、APP层。
根据报表、专题分析的需求而计算生成的个性化数据。(老板想看什么主题的数据 就给他展示出什么主题的数据)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/952042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年单向平衡阀批发厂家权威推荐榜单:双向电磁阀/旋挖机多路阀/电磁阀线圈源头厂家精选

在工业流体控制领域,单向平衡阀作为关键控制元件,其市场规模持续扩大,2024年全球市场份额已突破320亿元,预计2025年将保持8%-10%的稳健增长。 单向平衡阀凭借其精确的流量控制、稳定的压力平衡和可靠的反向截止特性…

互信脚本使用

yum install -y expect ssh-keygen -t rsa -P "" -f /root/.ssh/id_rsa export mypass=123456name=(node1 node2 node3 node4) for i in ${name[@]};do expect -c " spawn ssh-copy-id -i /root/.ssh/i…

如何查看软件包名

1、输出当前手机上的全部app包名 首先都需要连击上手机,手机上打开开发者模式,cmd中输入adb devices查看当前手机连接状态 输出device就说明手机连接成功了,device前面就是连接的这个手机的设备号 adb shell pm lis…

数学求和公式c++ - miao

1. 等差数列求和 // 首项a1,末项an,项数n ll arithmetic_sum(ll a1, ll an, ll n) {return n * (a1 + an) / 2; }// 首项a1,公差d,项数n ll arithmetic_sum(ll a1, ll d, ll n) {return n * a1 + n * (n - 1) / 2 …

李宏毅机器学习笔记16 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

通过编写systemctl来控制二进制部署的MySQL服务

自己给自己看的 其他人做为参考[root@node1 ~]# vim /usr/lib/systemd/system/mysqld.service [Unit] Description=MySQL Documentation=https://www.mysql.com/cn/ # 依赖服务,仅当依赖的服务启动之后再启动自定义…

无法定位程序输入点于kernel32.dll?详解原因与5种有效修复方案

运行程序时弹出“无法定位程序输入点于动态链接库 KERNEL32.dll 上”的错误提示?这是 Windows 系统常见的兼容性或系统文件异常问题。本文从原理、成因到具体解决步骤,带你逐步排查问题源头,并提供 5 种可行方案(含…

普法学习: 劳动关系的认定

@目录1 什么是劳动关系1.2 劳动关系的认定标准1.3 从属性标准也是认定劳动关系的一种2. 案例2.1 案例摘要2.2 案例简述 1 什么是劳动关系[1]劳动关系是劳动者与用人单位之间实现社会化劳动的过程中产生的社会关系,对劳…

Python 类继承 _ 老鼠的儿子会打洞

Python 类继承 _ 老鼠的儿子会打洞class Employee: def __init__(self, name, id): self.name = name self.id = id def print_info(self): print(f"员工名字:{self.name},工号:{sel…

C++ 中的 Meyer‘s Singleton

目录1. 什么是 Singleton 模式?2. 传统的 Singleton 实现及其问题3. Meyer‘s Singleton:现代而优雅的解决方案实现代码4. Meyer’s Singleton 的工作原理与关键特性5. 使用方法6. 优点7. 潜在缺点与注意事项总结全局…

java 比较数组数据大小

三目运算方式 public class 比较数组大小 {public static void main(String[] args) {int[] arr ={5,15,20,25,1000};for (int i = 0; i < arr.length-1; i++) { // System.out.println(Arrays.toStri…

lua+nginx用户鉴权脚本--get方法

需求: 一个应用暴露在外网,对登录用户做鉴权,相当于白名单用户. 原理: 用户在应用首页登录的时候会有get请求,在请求头中会有一串加密的base64字符串,经过jwt在线解码之后可以看到令牌过期时间,用户名以及其他信息,通过…

2025 年算法备案咨询服务公司最新推荐榜,技术实力与合规能力双维度权威测评解析

引言 2025 年算法备案进入 “双轨监管深化期”,《生成式人工智能服务管理暂行办法》等新规实施后,企业备案材料增至 8 项核心模块,双级审核流程使平均备案周期延长 40% 以上,合规难度显著提升。为精准筛选优质服务…

windows系统生成当日的时间戳文件脚本

@ECHO OFF echo.>"%date:~0,4%-%date:~5,2%-%date:~8,2% %time:~0,2%-%time:~3,2%-%time:~6,2%.txt"生成的格式 2022-11-13 15:11:23.txt 用法 新建一个bat文件 把内容拷贝进去即可 用途:我的日报一般在电…

docker中 Created和Exited状态容器导致磁盘空间爆满的处理的方式

完整的停止docker 容器服务docker stop 镜像运行id docker rm 镜像运行id当未对停止运行之后的容器进行rm之后 会占用大量磁盘空间 通过命令找到Created 和Exited状态的容器 并删除他们. for i in `docker ps -a |egre…

智能感应倒液器微波雷达方案和红外方案的优势和劣势

智能感应倒液器其实市面上一直都有,直到近些年才开始慢慢的进行规模性的普及。主要原因是一些公共场所的倒液器通过红外或者微波雷达做成智能无接触的会比较干净卫生。 以公共厕所为例无接触和有接触对比 手动公厕:你…

读完《代码大全2》

《代码大全2》快读完了,最后的部分在讲代码调整、系统和集成。读到这里,我对这本书的理解更深了一层。它教会我的不只是一些知识点,而是一种观念的转变:从“写代码”到“构建软件”。 “写代码”可能只关心一个函数…

2025 年闭式冷却塔,玻璃钢冷却塔,方形冷却塔,圆形冷却塔厂家最新推荐,实力品牌深度解析采购无忧之选!

引言 随着工业领域对冷却设备专业化、高效化需求的不断提升,闭式、玻璃钢、方形、圆形等不同类型冷却塔的市场关注度持续走高。为帮助企业精准筛选优质厂家,本次推荐榜单由制冷空调工业协会联合行业权威检测机构共同…

2025 年湖南冷却塔,长沙冷却塔,封闭式冷却塔,测试设备配套冷却塔厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读

引言 随着湖南地区工业生产、中央空调及测试设备领域的快速发展,对冷却塔尤其是封闭式冷却塔、测试设备配套冷却塔的需求日益增长。为帮助企业精准筛选优质厂家,本次推荐榜单由制冷空调工业协会联合湖南省节能环保产…

2025年口碑好的积分球公司排名前十推荐:合肥金水木光电科技

文章摘要 随着光电检测技术的快速发展,积分球作为光学均匀化与光辐射测量的核心设备,在LED测试、光谱分析等领域需求持续增长。本文基于技术参数、市场口碑、服务能力等维度,对2025年国内积分球厂商进行综合排名,为…