数字化转型-4A架构之数据架构

4A架构系列文章

  1. 数字化转型-4A架构(业务架构、应用架构、数据架构、技术架构)

  2. 数字化转型-4A架构之业务架构

  3. 数字化转型-4A架构之应用架构

  4. 数字化转型-4A架构之数据架构

  5. 数字化转型-4A架构之技术架构


数据架构 Data Architecture(DA)

1. 定义

数据架构,是组织管理数据资产的科学之道,描述如何管理从收集到转换、分发和使用数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。涵盖数据的收集、存储、使用及管理等环节,涉及数据模型、数据库系统设计及集成治理技术的实施。

2. 目的

数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。

3. 价值

通过梳理一个全面而清晰的数据架构蓝图,企业可以有效地管理和利用其数据资产,确保数据的一致性,以支持业务需求和决策过程。
实现精简数据冗余,打破企业数据孤岛,提升信息化水平,确保数据质量与一致性。
清晰准确的数据助力决策速度,满足国家政策要求,保障数据处理和存储遵循行业规范与法规。

一、 如何绘制企业的数据架构(DA)图?

绘制企业的数据架构图一般分为如下四步:

  1. 数据需求分析
  2. 数据模型设计
  3. 数据治理
  4. 数据共享开放与入表

具体设计步骤:

1.上接业务,分析数据需求,识别数据类型,采集数据

2.数据模型设计,概念模型(识别业务域),逻辑模型(实体关系ER),物理模型(表字段)

3.数据治理,数据安全合规,数据质量管理

4.数据共享开放,支撑业务决策,业务创新

在这里插入图片描述

二、 数据架构6大模块

新版本的数据架构中,数据架构的核心在于【数据声明、数据原则、数据模型、数据流动、数据管理和数据治理】这六大板块。
在这里插入图片描述

1、数据声明

架构工作声明是TOGAF架构开发方法(ADM)中的关键文档之一,用于详细描述架构开发的范围、方法、资源和计划。它定义了架构项目的基本框架和预期成果,数据申明是其中的一部分。

2、数据原则

架构原则是用于指导企业架构设计和实施的一组基本准则和指导方针。它们帮助确保架构的一致性、灵活性和可扩展性,使架构决策在不同的项目和团队中保持一致。架构原则通常由组织的高级管理层和架构师共同制定,并在整个组织中推广和遵循。

3、数据模型

定义数据元素、它们的属性以及数据元素之间的关系。输出物包括概念模型、逻辑模型、物理模型、数据目录等等。(1)概念模型概念模型是高层次的抽象模型,用于描述业务实体及其关系,主要面向业务用户和利益相关者。它通常不涉及技术细节,而是强调业务需求。

4、数据流动

描述数据在系统内和系统间的流动和传输方式。数据流动的主要输出物包括数据流转、数业映射等。
(1)数据流转
数据分布用于表示数据在系统间的流动过程,包括数据流图、数据映射文档、数据流规范、数据转换规则等。
(2)数业映射
数业映射是数据流动的基础,定义了数据实体存在于在哪些业务功能和应用程序中,帮助定义和管理数据需求,确保数据与业务功能的一致性和完整性,有效支持业务流程的执行和优化。

5、数据管理

数据管理是指对企业内所有数据资产的管理和控制,旨在确保数据的高质量、完整性、安全性、可用性和可访问性,以支持业务决策和运营。数据管理的主要输出物包括数据质量管理、元数据管理、数据安全管理、数据存储管理、数据集成管理及数据生命周期管理等等。

(1)数据质量管理
数据质量管理包括数据清洗、数据验证和数据质量监控,以确保数据的准确性和完整性。
(2)元数据管理
元数据管理涉及收集、存储和维护描述数据的数据(元数据),以便于数据发现和使用。
(3)数据安全管理
数据安全管理涉及保护数据免受未经授权的访问、使用和泄露,确保数据的机密性、完整性和可用性,
(4)数据存储管理
数据存储管理涉及设计和优化数据存储方案,确保数据的高效存储和访问。
(5)数据集成管理
数据集成管理涉及将来自不同源的数据集成到统一的数据平台,以支持业务分析和决策。
(6)数据生命周期管理
数据生命周期管理涉及数据从创建、使用、存储到归档和销毁的整个生命周期管理。

6、数据治理

数据治理涉及制定数据策略、建立数据管理组织结构和流程,以确保数据的一致性、完整性和使用合规性。数据治理的主要输出物包括数据策略、数据政策、数据组织及数据标准等等。

(1)数据策略
制定企业的数据战略,包括数据管理的总体目标和方向。
(2)数据政策
数据政策是指导数据管理和使用的高层次原则和规定,旨在确保数据的一致性、完整性、可用性和安全性。这些政策通常由企业的管理层制定和批准,并在整个组织中实施,
(3)数据标准
数据标准是关于如何定义、格式化和管理数据的详细规则和技术规范。数据标准确保在整个组织中一致地创建、管理和使用数据。包括有数据命名标准、数据格式标准、数据质量标准及元数据标准等,
(4)数据组织
明确数据管理的角色和职责,确保数据管理活动的有效执行

三、 数据管理系统及数据架构的类型

1. 数据仓库

数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。

2.数据集市

数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。

3. 数据湖

数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用。最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。

4.数据结构

数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。然后,将这种洞察应用于自动化并编排数据价值链。例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。

5.数据网格

数据网格是一种去中心化的数据架构,按业务领域来组织数据。使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。数据生产者充当数据产品所有者。作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。

数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。

四、企业数据架构参考框架

大数据技术推进委员会的实践指南围绕企业中联机分析处理(OLAP)和联机事务处理(OLTP)两类主要数据处理形式,从数据静态描述和动态描述视角提出数据架构的参考框架如下图所示:
在这里插入图片描述
主要内容如下:

① OLTP侧以应用系统集成为核心,OLAP侧以数据集成整合为核心,分别支持业务交易活动和业务分析活动的顺利开展;

② OLTP侧以范式数据模型为核心,确保应用系统满足业务交易的数据需求;OLAP侧以维度模型为主,承接OLTP侧的物理数据实体后进行转换整合,满足跨业务域的数据分析挖掘等需求;

③ OLTP 和OLAP 侧均需要数据标准的全面规范和支持,前者以数据项标准为主,后者以指标数据标准为主;

④ OLTP侧以数据分布、数据流管理为主,核心在于构建数据实体与业务流程的关联关系;OLAP侧以数据采集接入、总线矩阵管理为主,确保数据资源的准确采集和高效汇聚,保证数据分析结果回流到业务活动中;

⑤主数据是介于应用集成和数据集成之间的一种特殊状态,其本身是业务数据的一种特别状态,但其既可以有力推动应用集成,又可为数据集成和数据分析挖掘提供高质量的核心业务数据资源;

⑥企业数据架构参考框架需要结合企业实际的数字化现状进行重构,并进行业务的实例化才能发挥作用。

五、实际案例

在知乎的沐以成舟的文章中,给出了如下的数据架构。
数据架构从数据侧描述数据怎么来、怎么存、怎么加工、怎么使用。

  • 数据源:数据通过哪些方式集成过来;
  • 集成到数仓:都存在哪里,数仓怎么分层,每一层都干啥;
  • 数据集市:怎么存、怎么管;
  • 数据应用层:提供哪些应用;

最后,上面所有的一切,都用什么技术,什么组件,解决什么问题,系统需要什么样的数据、如何存储、如何进行数据架构设计。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日脚本 5.11 - 进制转换和ascii字符

前置知识 python中各个进制的开头 二进制 : 0b 八进制 : 0o 十六进制 : 0x 进制转换函数 : bin() 转为2进制 oct() 转换为八进制的函数 hex() 转换为16进制的函数 ascii码和字符之间的转换 : chr(97) 码转为字符 …

Vulnhub Lazysysadmin靶机攻击实战(一)

导语   靶机下载地址 https://download.vulnhub.com/lazysysadmin/Lazysysadmin.zip   靶机信息地址 https://www.vulnhub.com/entry/lazysysadmin-1,205/ 文章目录 信息收集扫描路径提权其他思路探索其他方式找密码总结下载安装好靶机之后启动虚拟机如下所示。 信息收集 我…

【DB2】DB2启动失败报错SQL1042C

在本地某次启动db2时报错SQL1042C,具体报错如下 [db2inst1standby ~]$ db2start 05/07/2025 16:32:53 0 0 SQL1042C An unexpected system error occurred. SQL1032N No start database manager command was issued. SQLSTATE57019在网上百度到说是需要…

Python中的re库详细用法与代码解析

目录 1. 前言 2. 正则表达式的基本概念 2.1 什么是正则表达式? 2.2 常用元字符 3. re库的适应场景 3.1 验证用户输入 3.2 从文本中提取信息 3.3 文本替换与格式化 3.4 分割复杂字符串 3.5 数据清洗与预处理 4. re库的核心功能详解 4.1 re.match()&#…

蓝桥杯2025年第十六届省赛真题-水质检测

C语言代码&#xff1a; #include <stdio.h> #include <string.h>#define MAX_LEN 1000000int main() {char a[MAX_LEN 1], b[MAX_LEN 1];// 使用 scanf 读取字符数组scanf("%s", a);scanf("%s", b);int ans 0;int pre -1;int state -1;i…

65.Three.js案例-使用 MeshNormalMaterial 和 MeshDepthMaterial 创建 3D 图形

65.Three.js案例-使用 MeshNormalMaterial 和 MeshDepthMaterial 创建 3D 图形 实现效果 在该案例中&#xff0c;Three.js 被用来创建一个包含多个 3D 对象的场景。其中包括&#xff1a; 圆环结&#xff08;TorusKnot&#xff09;立方体&#xff08;Box&#xff09;球体&…

Python学习笔记--Django的安装和简单使用(一)

一.简介 Django 是一个用于构建 Web 应用程序的高级 Python Web 框架。Django 提供了一套强大的工具和约定&#xff0c;使得开发者能够快速构建功能齐全且易于维护的网站。Django 遵守 BSD 版权&#xff0c;初次发布于 2005 年 7 月, 并于 2008 年 9 月发布了第一个正式版本 1…

《汽车噪声控制》复习重点

题型 选择 填空 分析 计算 第一章 噪声定义 不需要的声音&#xff0c;妨碍正常工作、学习、生活&#xff0c;危害身体健康的声音&#xff0c;统称为噪声 噪声污染 与大气污染、水污染并称现代社会三大公害 声波基本概念 定义 媒质质点的机械振动由近及远传播&am…

冒泡排序的原理

冒泡排序是一种简单的排序算法&#xff0c;它通过重复地遍历待排序的列表&#xff0c;比较相邻的元素并交换它们的位置来实现排序。具体原理如下&#xff1a; 冒泡排序的基本思想 冒泡排序的核心思想是通过相邻元素的比较和交换&#xff0c;将较大的元素逐步“冒泡”到列表的…

前端npm包发布流程:从准备到上线的完整指南

无论是使用第三方库还是创建和分享自己的工具&#xff0c;npm都为我们提供了一个强大而便捷的平台&#xff0c;然而很多开发者在将自己的代码发布到npm上时往往面临各种困惑和挑战&#xff0c;本篇文章将从准备工作到发布上线&#xff0c;探讨如何让npm包更易发布及避免常见的坑…

使用 CDN 在国内加载本地 PDF 文件并处理批注:PDF.js 5.x 实战指南

PDF.js 是一个强大的开源 JavaScript 库&#xff0c;用于在 Web 浏览器中渲染 PDF 文件。它由 Mozilla 开发&#xff0c;能够将 PDF 文档绘制到 HTML5 Canvas 或 SVG 上&#xff0c;无需任何本机代码或浏览器插件。对于许多需要在网页中展示 PDF 内容的应用场景来说&#xff0c…

网络化:DevOps 工程的必要基础(Networking: The Essential Foundation for DevOps Engineering)

李升伟 编译 理解网络化基础知识 你是否曾想过是什么真正让卓越的DevOps工程师与众人区别开来&#xff1f;答案是网络化。是的&#xff0c;对网络的基本理解不仅仅是有帮助的——它是绝对必要的。在当今以微服务、容器和分布式系统为主宰的互联互通世界中&#xff0c;对网络原…

C++基本知识 —— 缺省参数·函数重载·引用

C基本知识 —— 缺省参数函数重载引用 1. 缺省参数2. 函数重载3. 引用3.1 引用的基础知识3.2 引用的作用3.3 const 引用3.4 指针与引用的关系 1. 缺省参数 什么是缺省参数&#xff1f;缺省参数是声明或定义函数时为函数的参数指定一个缺省值。在调用该函数的时候&#xff0c;如…

Rust 官方文档:人话版翻译指南

鉴于大部分翻译文档都不太会说人话&#xff0c;本专栏主要内容为 rust 程序设计语言、rust 参考手册、std 库 等官方文档的中译中。

FlySecAgent:——MCP全自动AI Agent的实战利器

最近&#xff0c;出于对人工智能在网络安全领域应用潜力的浓厚兴趣&#xff0c;我利用闲暇时间进行了深入研究&#xff0c;并成功开发了一款小型轻量化的AI Agent安全客户端FlySecAgent。 什么是 FlySecAgent&#xff1f; 这是一个基于大语言模型和MCP&#xff08;Model-Contr…

实战项目5(08)

目录 任务场景一 【r1配置】 【r2配置】 【r3配置】 ​​​​​​​任务场景二 【r1配置】 【r2配置】 ​​​​​​​任务场景一 按照下图完成网络拓扑搭建和配置 任务要求&#xff1a; 通过在路由器R1、R2和R3上配置静态路由&#xff0c;实现网络中各终端PC能够正常…

基于Kubernetes的Apache Pulsar云原生架构解析与集群部署指南(下)

文章目录 k8s安装部署Pulsar集群前期准备版本要求 安装 Pulsar Helm chart管理pulsarClustersBrokersTopic k8s安装部署Pulsar集群 前期准备 版本要求 Kubernetes 集群&#xff0c;版本 1.14 或更高版本Helm v3&#xff08;3.0.2 或更高版本&#xff09;数据持久化&#xff…

C35-数组和函数开发初见

一 数组作为函数的参数 用于传递数组中的某一个元素→意义不大 数组名当做函数实际参数 示例 代码 #include <stdio.h>//封装函数PrintArr void PrintArr(int arr[3]){int i;for(i0;i<3;i){printf("%d ",arr[i]);}putchar(\n);}//主函数 int main() { …

【小沐学GIS】基于C++绘制二维瓦片地图2D Map(QT、OpenGL、GIS)

&#x1f37a;三维数字地球系列相关文章如下&#x1f37a;&#xff1a;1【小沐学GIS】基于C绘制三维数字地球Earth&#xff08;OpenGL、glfw、glut&#xff09;第一期2【小沐学GIS】基于C绘制三维数字地球Earth&#xff08;OpenGL、glfw、glut、GIS&#xff09;第二期3【小沐学…

idea左侧项目资源管理器不见了处理

使用idea误触导致&#xff0c;侧边栏和功能栏没了&#xff0c;如何打开&#xff1f; 1.打开文件&#xff08;File&#xff09; 2. 打开设置&#xff08;Settings&#xff09; 3.选择Appearance&Behavior--->Appearance划到最下面&#xff0c;开启显示工具栏和左侧并排布…