OneID系统建设实践总结

news/2025/10/21 16:46:46/文章来源:https://www.cnblogs.com/davablog/p/19152858

OneID系统建设实践总结

OneID是指将分布在不同系统中的同一个实体用同一个ID进行标识,这是在数据治理领域经常出现的一个概念。由于企业中存在大量的数据孤岛(业务源系统各自为战),因此作为下游数据仓库的架构及开发人员,迫切的需要将不同系统中同一个实体信息进行拉通,这样在后续的报表、驾驶舱等应用中,指标的口径才能准确有效。OneID最早是阿里提出来,属于OneData理论的一部分,通过识别实体的关键属性,将不同系统中的实体进行拉通、拆分、归并等操作。以下是根据在证券资管公司的品种与主体的OneID建设实践进行的总结。

1、设计原则

1、稳定性:保持OneID系统实体和源系统实体关系的稳定性,OneID实体只随源系统数据变化而变化
2、全面性:任何一个源系统的实体都需要与OneID实体建立关系
3、真实性:若OneID实体的“证件号”一致,则进行归并
4、优先级:OneID属性取值,根据系统优先级进行取值

2、拉通属性

基于对源系统的数据探查及行业背景知识及常识,推断可进行拉通的属性。如客户通过证件类型、证件号码、名称进行拉通,产品通过产品编码进行拉通。

3、逻辑处理方案

首先会创建实体信息表、实体识别信息表、实体与源系统关系表三张基础表,记录OneID所需的核心关键信息。基于核心表,OneID系统需要实现拉通、拆分、归并等基础操作逻辑。

1、拉通:通过拉通属性将分布在不同源系统中的同一实体进行拉通,赋予唯一的编码。

2、拆分:将不同源系统中已拉通的同一实体进行拆分,赋予新的编码。

3、归并:将OneID系统中的实体进行关联,标记为同一个实体。

其中,拉通-拆分是互为正反操作,代表的是源系统实体与OneID实体之间建立联系或拆开联系。

具体处理流程可以有以下两种思路(只要把所有的逻辑情形考虑完整即可,参照MECE法则):

image

image

4、技术落地方案

在实现OneID逻辑的技术方案中,利用编程语言(Java或Python)进行开发,结构会相对比较清晰。另一种方案就是基于SQL开发,虽然没有编程语言方便,但是可直接利用数据团队的现成的平台环境,无需再单独维护一套环境,并且可以直接利用数据团队成员的技术栈。实际环境中,公司已采购了大数据平台作为离线数据仓库平台,通过每日夜间进行批处理, 提供T-1日的数据报表等离线数据服务。因此最终采用基于Spark SQL的OneID逻辑开发的落地方案,以下是详细的处理流程:

image

 

5、系统开发上线

在产品场景中,由于公司内部的产品数据量较小,实体数量在1万以下。在客户OneID场景中,数据量适中,实体数量在百万左右。在建设过程中,团队共5人,逻辑梳理时间周期约一个月,代码开发周期约一个月。SQL代码量方面,产品OneID只有几百行,客户OneID有几千行,目前系统建设上线运行已三年多,运行稳定。

6、总结

OneID的主要作用就是将分散在不同系统中的同一实体进行识别出来。与OneID类似的概念和系统还有很多,如在客户数据方面,企业一般会有CRM系统,同时还会建设CDI(Customer Data integration)系统将客户信息进行整合以便为后续的营销场景提供服务。CDI系统的数据源通常包括公司内部的线上线下渠道的客户信息,以及用于清洗的外部第三方采购数据(如采购的客户住址信息)。

OneID系统与主数据系统也非常类似,主数据是指描述企业“核心业务实体”且被反复使用的高价值、高共享、高稳定性数据。常见的有客户、产品、账户、组织、人员、供应商、项目等各类主数据。

OneID系统的上线只是一个开始,要想真正的使用起来,后续仍然需要一个漫长持续的运营过程。上线之前,业务人员等数据使用方已习惯原有的系统ID,要改变习惯切换到新的OneID需要一个过程。在此期间,要保证OneID系统数据的准确性、完整性和及时性,才能逐步赢得业务的信任,只有结合严谨的设计方案、合理的代码处理、持续的运营才能真正的给业务提供价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

平滑滚动到页面元素scrollIntoView

// 获取目标元素 const tableSection = document.querySelector(.data-table-section) // 平滑滚动到目标元素 tableSection.scrollIntoView({ behavior: smooth, block: start })首先通过 document.querySelector(.da…

浏览器检查源代码出现如下问题解决方法

如果出现如下情况:请按如下图进行解决:

线性代数 SVD | 几何本质、求解方法与应用 - 教程

线性代数 SVD | 几何本质、求解方法与应用 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

SG 函数

模型介绍 SG 函数是组合博弈论中的核心工具,用于分析公平组合博弈(Impartial Games)。它提供了一个统一的框架,将各种博弈问题转化为 Nim 游戏的形式。 基本概念:公平组合博弈:两个玩家、完全信息、无随机因素、…

2025 年铝包木阳光房生产厂家最新推荐榜:口碑至上的实力品牌甄选及选购指南

引言 在绿色建筑理念深化与消费升级的双重驱动下,铝包木阳光房凭借实木的温润质感与铝合金的耐用特性,成为中高端家装与工装市场的优选品类。但当前市场呈现 “老牌林立、新牌涌现” 的格局,数百个品牌混杂其中,部…

AI智能体是加速器,而非开发者替代品

将AI集成到应用开发中的核心挑战,不在于其协助能力,而在于我们能在多大程度上放心地将控制权委托给它。尽管AI智能体可以完美地执行那些曾被认为人类专属的任务,但它们同样可能在紧接着的下一段代码中犯下令人震惊的…

2025年兄弟机床维修厂家权威推荐榜:专业维修技术与高效服务口碑深度解析

2025年兄弟机床维修厂家权威推荐榜:专业维修技术与高效服务口碑深度解析 行业背景与发展现状 随着制造业数字化转型的深入推进,数控机床作为现代工业生产的核心装备,其稳定运行直接关系到企业的生产效率和产品质量。…

VUE中表达校验-明明有值却还是出现非空提示

VUE中表达校验-明明有值却还是出现非空提示1 说明对原先的一个表单编辑功能进行修改,有两个选择框从非必填变为必填。修改完成后,去编辑的时候有时候就会出问题,明明选择了值,却还是出现非空提示2 代码其中,机构部…

Oracle统计信息相关

以下是检查 Oracle 统计信息更新时间的常用方法: 1. 查看表级统计信息更新时间 -- 查看用户表统计信息 SELECT table_name, num_rows,last_analyzed,TO_CHAR(last_analyzed, YYYY-MM-DD HH24:MI:SS) as analyze_time,…

2025年栏杆护栏厂家权威推荐榜:不锈钢栏杆、桥梁防撞护栏、河道景观护栏,专业制造与工程应用深度解析

2025年栏杆护栏厂家权威推荐榜:不锈钢栏杆、桥梁防撞护栏、河道景观护栏,专业制造与工程应用深度解析 行业背景与发展趋势 随着城市化进程加速和基础设施建设不断完善,栏杆护栏行业迎来了新的发展机遇。作为公共安全…

Consul 与 Prometheus 集成实战:服务自动发现与监控配置指南(含 ThinkPHP8 示例)

Consul 与 Prometheus 集成实战:服务自动发现与监控配置指南(含 ThinkPHP8 示例)本文详细讲解 Consul 与 Prometheus 的集成方案,解决传统 Prometheus 监控需手动配置 Target 的繁琐问题。核心借助 Consul 的服务注…

完整教程:笔记本键盘失灵别慌!3种方法快速禁用(附恢复技巧)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年工业设备安装厂家权威推荐榜:管道/电气/暖通空调/空压系统/纯水系统/厂房通风/车间配电/机械设备安装服务深度解析

2025年工业设备安装厂家权威推荐榜:管道/电气/暖通空调/空压系统/纯水系统/厂房通风/车间配电/机械设备安装服务深度解析 工业设备安装行业发展趋势 随着制造业转型升级步伐加快,工业设备安装行业正迎来新一轮发展机…

阿里云微服务引擎 MSE 及 API 网关 2025 年 9 月产品动态

阿里云微服务引擎 MSE 及 API 网关 2025 年 9 月产品动态

2025 年最新防伪溯源服务商权威推荐榜单:AI 技术赋能 + 软硬件一体优选指南及品牌选择攻略防伪溯源标签/AI防伪溯源/防伪溯源数字标签推荐

引言 在当前市场环境下,假冒伪劣产品依旧肆虐,从食品药品到电子数码,多个行业深受其害,不仅严重侵害消费者合法权益,更让正规企业面临品牌信誉受损、经济损失惨重的困境。传统防伪技术因静态化、易仿制的短板,已…

题解:P1196 [NOI2002] 银河英雄传说

P1196 [NOI2002] 银河英雄传说 这是一道绿题 核心考察点只有一个: 那就是带权并查集\(\mathcal{Part\ I}\) 我们检查题意不难发现这道题的要求无非两个: $\ \ $ 1 ) 维护多个链的不断合并,但是以链中某节点作为索引…

配置即权限:从传统开源 RBAC 框架到 SPARK 的六层资料护盾,告别改权限就要改代码的魔咒

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年TYPE-C母座厂家权威推荐榜:防水/板上/沉板/立插/卧式/侧贴/贴片式/插件式全系列,5A大电流高速TID认证接口一站式供应

2025年TYPE-C母座厂家权威推荐榜:防水/板上/沉板/立插/卧式/侧贴/贴片式/插件式全系列,5A大电流高速TID认证接口一站式供应 随着电子设备向轻薄化、多功能化方向发展,TYPE-C接口凭借其正反插拔、高速传输和大功率充…

Oracle下查询数据库SQL ID

以下是常用查询SQLID的方法: 1. 通过 V$SQL 视图查询(常用) -- 根据SQL文本模糊查询SQLID SELECT sql_id, sql_text, executions, elapsed_time/1000000/executions as avg_elapsed_sec FROM v$sql WHERE sql_text …

深入解析:【数据结构】顺序表0基础知识讲解 + 实战演练

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …