【数据标准】数据标准化框架体系-基础类数据标准

导读:数据标准化的四大基础类标准(业务术语、业务规则、命名规范、代码标准)是企业数据治理的核心支柱。主要作用体现在​消除业务与技术间的语义鸿沟​(通过统一术语与命名规范),​保障数据全生命周期的质量与合规性​(依赖业务规则约束逻辑与代码标准映射权威值域),​支撑跨系统、跨组织的高效协作​(基于标准化的数据定义与交互规则),以及赋能数据驱动决策​(确保数据的准确性、一致性与可解释性)。这些标准共同构建了数据资产的“通用语言”体系,是数字化转型的基石,能够降低集成成本、规避合规风险,并为人工智能、大数据分析等场景提供可信赖的数据底座。

目录

1. 业务术语(Business Glossary)​

​2. 业务规则(Business Rules)​

​3. 命名规范(Naming Convention)​

3.1 命名规范要求

3.2 缩写原则

 3.3 模型元素组词结构

3.4 常见命名规范

​4. 代码标准(Code Standards)​

 4.1 国际代码标准表

4.2 国内代码标准表

4.3 行业代码标准表


概述: 数据标准化的四大基础类标准(业务术语、业务规则、命名规范、代码标准)相互关系。


1. 业务术语(Business Glossary)​

定义业务术语是对企业核心业务概念的统一、标准化的定义,确保不同部门对同一术语的理解一致。
作用:消除歧义,促进跨部门协作,支撑数据治理和数据质量。
实例

  • 术语名称:客户

    • 定义:与企业签订正式合同并产生交易记录的自然人或法人。
    • 范围:不包括潜在客户、已注销客户。
    • 示例:某银行的“客户”需满足“开户且最近6个月有交易记录”。
  • 术语名称:订单金额

    • 定义:订单的实际支付金额,含税费、折扣,不含运费。
    • 规则:需与财务系统中的“实收金额”一致。

术语表实例:

字段名称示例值说明
业务术语IDT-001唯一标识符,用于系统引用(技术用户)
业务术语名称客户标准名称(业务用户)
定义与企业签订正式合同并产生交易记录的自然人或法人,不包括潜在客户和已注销客户。清晰描述术语范围(业务用户)
缩写/简称CST技术系统中使用的简称(技术用户)
同义词顾客、消费者其他部门可能使用的名称(业务用户)
数据源头CRM系统、订单管理系统数据来源系统(数据管理专员)
维护人员数据治理团队(张三)责任人(数据管理专员)
更新日期2023-10-01最后修订时间(数据管理专员)
分类客户管理所属业务域(技术用户)
关联关系关联术语:客户ID(T-002)、客户状态(T-003)
关联数据实体:客户表(dim_customer
与其他术语或数据实体的映射(技术用户)
业务规则客户状态为“活跃”时,最近6个月内必须有交易记录。约束条件(业务用户)
技术映射数据库字段:customer_status
API字段:/api/customer/{id}
技术实现细节(技术用户)


业务术语满足不同角色的需求

  1. 业务用户

    • 通过定义同义词业务规则明确业务含义,避免歧义。
    • 例如:区分“客户”与“潜在客户”。
  2. 数据管理专员

    • 通过数据源头维护人员更新日期追踪数据血缘和治理责任。
    • 例如:客户数据来自CRM系统,由张三负责维护。
  3. 技术用户

    • 通过技术映射关联关系缩写实现数据建模和系统开发。
    • 例如:客户状态映射到数据库字段customer_status,关联客户表主键。

2. 业务规则(Business Rules)​

定义对数据生成、处理、使用的逻辑约束和规范,确保数据的完整性、一致性和合规性。
作用:保障数据的业务有效性,避免脏数据。


业务规则的三大分类(全局规则、交互规则、内禀规则)的定义及实例

分类定义特点实例技术实现方式
全局规则跨系统、全企业通用的基础规则,通常与数据标准或合规性相关。- 普适性
- 强制性
- 静态约束
1. 手机号格式必须为11位数字且以1开头。
2. 国家编码必须使用ISO 3166标准。
- 中央规则引擎(如Drools)
- ETL工具校验
- 数据治理平台统一配置
交互规则多个系统/实体交互时的逻辑约束,确保数据流转和业务流程的一致性。- 关联性
- 动态性
- 依赖外部状态
1. 订单创建时库存必须充足。
2. 用户注销需检查关联订单状态。
- API调用校验(如RESTful接口)
- 分布式事务锁(如Saga模式)
- 消息中间件
内禀规则单个实体内部字段的独立约束,仅依赖自身属性。- 独立性
- 静态性
- 字段级校验
1. 性别字段仅允许0/1/2。
2. 商品价格必须大于0且保留两位小数。
- 数据库约束(NOT NULLCHECK
- 代码层校验(如Java Bean Validation)

 

  • 全局规则是顶层约束,为交互和内禀规则提供基础;【企业级“宪法”,不可绕过。】
  • 交互规则依赖内禀规则(如订单总金额需先满足内禀计算规则);【系统间协作的“合同”,需动态协调。】
  • 内禀规则是数据质量的最小单元。【数据实体的“基因”,确保单体健康。】

3. 命名规范(Naming Convention)​

定义对数据库表、字段、文件、接口等对象的命名规则,提升数据资产的可读性和管理效率。
作用:降低沟通成本,快速定位数据资产。
实例

  • 数据库表命名业务域_实体_用途

    • 示例fin_payment_record(财务域-支付记录表)
    • 规则:全小写,单词间用下划线分隔。
  • 字段命名属性_修饰词

    • 示例user_name(用户名)、order_create_time(订单创建时间)
  • 文件命名业务主题_日期_版本

    • 示例sales_report_202310_v1.xlsx

3.1 命名规范要求

分类规范描述实例反例/注意事项
命名规范要求
1. ​清晰性名称需明确反映业务含义,避免歧义。customer_id(客户ID)
order_total_amount(订单总金额)
cust_id(缩写不明确)
total(含义模糊)
2. ​一致性同类对象命名格式统一(如全用单数或全用复数)。表名统一复数:customersorders
布尔字段统一以is_开头:is_active
混合格式:customer(单数)和orders(复数)
3. ​简洁性名称不宜过长,但需保留核心语义。addr(address缩写)
prod_code(product_code缩写)
customer_identification_number(过长,可简化为customer_id
4. ​可读性使用蛇形命名法(snake_case)或驼峰法(camelCase),避免特殊符号。user_role(蛇形)
userRole(驼峰)
UserRole(帕斯卡,可能混淆)
user-role(连字符不建议)

3.2 缩写原则

缩写原则
1. ​常见缩写使用广泛接受的缩写(如ID代替Identifier)。id(标识符)
qty(数量)
amt(金额)
cust(可能指customercustomization,需避免歧义)
2. ​领域一致性同一领域内缩写规则需统一(如金融领域amt表示金额)。金融表字段:txn_amt(交易金额)
acct_no(账户编号)
混合使用:amountamt出现在同一模型中
3. ​避免过度缩写缩写需确保团队共识,避免生僻缩写。addr(address)
desc(description)
cust_addr(客户地址可接受)
usr_lctn(user_location,生僻缩写不推荐)

 3.3 模型元素组词结构

模型元素组词结构
1. ​表名实体名称(复数)+业务域(可选)。users(用户表)
sales_orders(销售订单表)
user(单数表名)
order_sales(顺序不符合习惯)
2. ​字段名属性名+类型后缀(可选)。created_at(创建时间)
price_usd(美元价格)
create_time(冗余)
usd_price(顺序不符合习惯)
3. ​关联字段外键字段格式:关联表名(单数)_idcustomer_id(关联customers表)
product_id(关联products表)
cust_id(缩写不统一)
id_product(顺序错误)
4. ​索引/约束类型+表名+字段名。idx_users_email(用户邮箱索引)
uk_products_code(产品编码唯一约束)
index1(无意义名称)
unique_code(缺少表名信息)

3.4 常见命名规范

常见命名规范
1. ​主键统一命名为idid(表users的主键)user_id(主键不建议带表名)
2. ​日期字段时间类型字段以_at_date结尾。created_at(创建时间)
expiry_date(到期日期)
create_time(不统一)
expire(缺少类型标识)
3. ​布尔字段is_has_can_开头。is_active(是否激活)
has_license(是否有许可证)
active(缺少布尔标识)
license_status(建议用has_license
4. ​枚举字段_type_status结尾。order_type(订单类型)
payment_status(支付状态)
type(过于笼统)
status(需结合业务域,如user_status

 总结:

  1. 命名规范要求:确保清晰、简洁、一致,优先使用蛇形命名法。
  2. 缩写原则:遵循领域共识,避免歧义缩写。
  3. 组词结构:表名复数,字段名“属性+修饰”,外键格式统一。
  4. 常见规范:主键用id,布尔字段加前缀,日期字段加后缀。

4. 代码标准(Code Standards)​

定义对编码规则、代码值及其含义的标准化定义,确保代码在系统中的唯一性和可解释性。
作用:支持数据整合与分析,避免编码冲突。
实例

  • 代码类型:状态码

    • 规则:用两位数字表示订单状态。
    • 示例
      • 01:已下单
      • 02:已支付
      • 03:已发货
  • 代码类型:国家/地区编码

    • 标准:采用ISO 3166-1国际标准。
    • 示例CN(中国)、US(美国)
  • 代码类型:性别编码

    • 规则:统一用数字表示,避免“男/女”、“M/F”混用。
    • 示例1(男)、2(女)、0(未知)

 4.1 国际代码标准表

分类标准名称/编号定义与范围示例典型应用场景
国际通用ISO 3166-1(国家/地区代码)定义全球国家/地区的2位字母码、3位字母码及数字码。CN(中国)、US(美国)跨国数据交换、地理位置标识
ISO 4217(货币代码)标准货币的3字母代码(如美元、欧元)。USD(美元)、EUR(欧元)跨境支付、财务系统结算
RFC 3629(UTF-8编码)统一字符编码标准,支持多语言文本。U+4E2D(中文“中”)全球化系统开发、多语言数据存储
国际行业GS1(商品条码标准)全球商品标识(GTIN、EAN/UPC条形码)。6921234567890(中国产商品条码)零售库存管理、物流追溯
SWIFT/BIC Code银行国际代码,标识金融机构。ICBKCNBJXXX(中国工商银行)国际汇款、跨境资金清算
IATA机场代码全球机场三字母标识码。PEK(北京首都机场)、JFK(纽约)航空订票、物流跟踪

4.2 国内代码标准表

分类标准名称/编号定义与范围示例典型应用场景
国家统一GB/T 2260(行政区划代码)中国省、市、县三级行政区划6位数字代码。110000(北京市)户籍管理、统计数据上报
GB/T 4754(国民经济行业分类)中国国民经济行业分类与代码(门类、大类、中类)。A01(农业)经济统计、行业分析
统一社会信用代码中国法人及其他组织的18位唯一标识码。91350100MA345R****(福建某企业)企业注册、税务登记
行业标准CNAPS(支付系统行号)中国现代化支付系统的12位银行行号。102100000013(中国银行总行)银行间清算、跨行转账
公民身份证号码18位公民唯一标识(地区+生日+顺序码+校验码)。110101199001011234身份核验、政务服务
医保药品分类与代码国家医保局药品分类标准(西药、中成药等)。X0001(阿司匹林)医保报销、药品采购

4.3 行业代码标准表

分类标准名称/编号定义与范围示例典型应用场景
金融ISIN(证券国际代码)国际证券识别码(12位字母数字组合)。US0378331005(苹果公司股票)跨境证券交易、资产管理
CFETS外汇交易代码中国外汇交易中心货币对交易代码。USDCNY(美元对人民币)外汇交易、汇率报价
医疗ICD-10(疾病分类代码)WHO国际疾病与健康问题分类(10版)。J18.9(未特指肺炎)医疗诊断、保险理赔
医保药品目录编码国家医保药品目录分类与唯一代码。YB0000001(某抗癌药)医保支付、医院药房管理
交通运输HJ 1234(车牌号编码规则)中国机动车号牌编码规则(省份简称+字母数字组合)。京A12345(北京车牌)车辆登记、交通执法
电子商务GTIN(全球贸易项目代码)商品全球唯一标识(与GS1国际标准对齐)。6931234500007(某商品条码)电商平台商品管理、跨境物流

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73978.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可发1区的超级创新思路(python\matlab实现):MPTS+Lconv+注意力集成机制的Transformer时间序列模型

首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴! 应用场景 该模型主要用于时间序列数据预测问题,包含功率预测、电池寿命预测、电机故障检测等等。 一、模型整体架构(本文以光伏功率预测为例) 本模型由多尺度特征提取模块(MPTS)…

深入解析C#中的解释器模式:原理与应用

解释器模式(Interpreter Pattern)是一种行为型设计模式,旨在为特定的语言提供解释和执行的能力。该模式将语言的文法规则封装在类中,使得能够灵活、动态地对这些规则进行解释。在实际开发中,尤其是处理一些定制的表达式…

LeetCode知识点整理

1、Scanner 输入: import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);// 读取整数int num scanner.nextInt();// 读取一行字符串String line scanner.nextLine();scanner.close();…

红宝书第二十一讲:详解JavaScript的模块化(CommonJS与ES Modules)

红宝书第二十一讲:详解JavaScript的模块化(CommonJS与ES Modules) 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、模块化的意义:分而治之 模块化解决代码依赖混…

Android Product Flavors 深度解析与最佳实践:构建多版本应用的全方位指南

1. 高效配置模板 1.1 现代化多维度配置 (Kotlin DSL) android {flavorDimensions listOf("version", "market", "environment")productFlavors {register("free") {dimension "version"applicationIdSuffix ".free…

QListView开发入门

1. QListView 基础介绍 QListView 是 Qt 框架中用于显示项目列表的控件,属于模型/视图架构的一部分。它提供了一种灵活的方式来显示和操作项目列表。 主要特点: 基于模型/视图架构 支持多种视图模式(列表、图标) 内置选择、编…

Cookie可以存哪些指?

Cookie是一种小型文本文件,通常由服务器生成并发送到用户浏览器中保存。它可以用于存储一些简单但非常有用的信息,以便于后续请求时自动附带回服务器使用。下面是Cookie能够存储的一些典型内容类别及用途说明: 会话标识符(Session ID) 这是最…

非手性分子发光有妙招:借液晶之力,实现高不对称圆偏振发光

*本文只做阅读笔记分享* 一、圆偏振发光研究背景与挑战 圆偏振发光(CPL)材料在3D显示、光电器件等领域大有用处,衡量它的一个重要指标是不对称发光因子(glum)。早期CPL材料的glum值低,限制了实际应用。为…

CSS中的em,rem,vm,vh详解

一:em 和 rem 是两种相对单位,它们常用于 CSS 中来设置尺寸、字体大小、间距等,主要用于更灵活和响应式的布局设计。它们与像素(px)不同,不是固定的,而是相对于其他元素的尺寸来计算的。 1. em …

《非暴力沟通》第十二章 “重获生活的热情” 总结

《非暴力沟通》第十二章 “重获生活的热情” 的核心总结: 本章将非暴力沟通的核心理念延伸至生命意义的探索,提出通过觉察与满足内心深处的需要,打破“义务性生存”的桎梏,让生活回归由衷的喜悦与创造。作者强调,当行动…

MySQL数据库精研之旅第五期:CRUD的趣味探索(上)

专栏:MySQL数据库成长记 个人主页:手握风云 目录 一、CRUD简介 二、Create新增 2.1. 语法 2.2. 示例 三、Retrieve检索 3.1. 语法 3.2. 示例 一、CRUD简介 CURD是对数据库中的记录进行基本的增删改查操作:Create(创建)、Retrieve(检索…

【银河麒麟系统常识】需求:安装.NET SDK

前提 网络状态正常(非离线安装); 终端命令如下所示 根据不同系统的版本,自行选择,逐行执行即可; # 基于 Ubuntu/Debian 的银河麒麟系统 wget https://packages.microsoft.com/config/ubuntu/20.04/packages-microsoft-prod.deb -O…

行业智能体大爆发,分布式智能云有解

Manus的一夜爆红,在全球范围内引爆关于AI智能体的讨论。 与过去一般的AI助手不同,智能体(AI Agent)并非只是被动响应,而是主动感知、决策并执行的应用。Gartner预测,到2028年,15%的日常工作决策…

工作记录 2017-03-13

工作记录 2017-03-13 序号 工作 相关人员 1 修改邮件上的问题。 开始处理操作日志部分。 测试了C#和MySql的连接。 更新RD服务器。 郝 更新的问题 1、 修改了CMS1500的打印,NDC的内容用了小的字体。 2、在Cliams List中可以查看Job的Notes。 3、Payment Po…

【七层分析框架:寒门贵子消亡的系统性绞杀】

七层分析框架:寒门贵子消亡的系统性绞杀 第一层:教育资源断层 结论:基础教育投入差已达量子级差距 机制: 北京海淀小学生均经费(¥47,800) 云南山区(¥6,200)…

Codeforces Round 1014 (Div. 2)(A-D)

题目链接&#xff1a;Dashboard - Codeforces Round 1014 (Div. 2) - Codeforces A. Kamilka and the Sheep 思路 最大值-最小值 代码 void solve(){int n;cin>>n;vi a(n10);int mx0;int miinf;for(int i1;i<n;i){cin>>a[i];mimin(mi,a[i]);mxmax(mx,a[i])…

开源AI智能体项目OpenManus的部署

关于开源AI智能体项目OpenManus的部署与背景信息整理如下&#xff1a; 1. OpenManus 背景与核心亮点 开发背景&#xff1a;Manus作为一款闭源的通用型AI智能体产品&#xff0c;因内测邀请码稀缺&#xff08;二手平台炒至10万元&#xff09;引发争议。开源社区迅速反应&#xff…

使用jieba库进行TF-IDF关键词提取

文章目录 一、什么是TF-IDF&#xff1f;二、为什么选择jieba库&#xff1f;三、代码实现1.导入必要的库2. 读取文件3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.分词并去除停用词 四、总结 一、什么是TF-IDF&#xff1f; TF-IDF&#xff08;Term Frequency-I…

【学Rust写CAD】20 平铺模式结构体(spread.rs)

这个 Spread。rs文件定义了渐变超出定义区域时的扩展方式&#xff0c;通常用于处理渐变在边界之外的行为。 源码 //color/spread.rs #[derive(Debug, Clone, Copy)] pub struct Pad; // 空结构体&#xff0c;表示 Pad 模式#[derive(Debug, Clone, Copy)] pub struct Reflect…

[操作系统,学习记录]3.进程(2)

1.fork(); 玩法一&#xff1a;通过返回值if&#xff0c;else去执行不同的代码片段 玩法二&#xff1a;if&#xff0c;else然后调用execve函数去执行新的程序 2.进程终止&#xff1a; 退出码&#xff0c;子进程通过exit/return返回&#xff0c;父进程wait/waitpid等待而得&am…