怎么做网站优化排名到前面wordpress发布视频
怎么做网站优化排名到前面,wordpress发布视频,游戏网站的建设,网站开发工具的大数据仓库开发规范示例 一、前提概要二、数仓分层原则及定义2.1 数仓分层原则2.2 数仓分层定义 三、数仓公共开发规范3.1 分层调用规范3.2 数据类型规范3.3 数据冗余规范3.4 NULL字段处理规范3.5 公共字段规范3.6 数据表处理规范3.7 事实表划分规范 四、数仓各层开发规范4.1 分… 大数据仓库开发规范示例 一、前提概要二、数仓分层原则及定义2.1 数仓分层原则2.2 数仓分层定义 三、数仓公共开发规范3.1 分层调用规范3.2 数据类型规范3.3 数据冗余规范3.4 NULL字段处理规范3.5 公共字段规范3.6 数据表处理规范3.7 事实表划分规范 四、数仓各层开发规范4.1 分层实例4.2 表的属性词条相关规范4.3 ODS层设计规范4.4 DWD层设计规范4.5 DWS层设计规范4.6 DIM设计规范4.7 DM层设计规范4.8 TMP层设计规范 五、总结 一、前提概要
大数据平台开发规范示例 发布一段时间后有小伙伴表示我汤姆就是个Sql Boy可否来个 数据仓库开发规范示例安排
调侃归调侃如果想做一名合格的Sql Boy还真不容易…
一臻在此对过去和做数仓Ing的小伙伴们361°C鞠躬Respect以表敬意。 二、数仓分层原则及定义
2.1 数仓分层原则
数仓分层的目的是为了给业务提供高效的数据支撑和层次清晰、功能明确的数据存储为企业各角色提供稳定、准确、多元化的高可用数据同时为数据提供更方便的管理和运维。
2.2 数仓分层定义
数仓主要包含ODS,DWD,DWS,DIM,DM几个标准化的分层同时结合企业实际的情况如补录的数据在数据ETL过程中的临时处理数据等根据用途汇总为贴源层、数据共享层、数据服务层。
ODSOperational Data Store: 贴源层数据仅导入业务业务数据,不做任何数据的清洗转换和修改保持与源库一致。具体情况根据项目场景设定。除了业务系统的数据还包括补录数据处理源系统数据快照处理等。DWDData Warehouse Detail: 数仓明细层数据保留业务实体的原子粒度并且通过数据清洗和一定程度的数据转换保障数据质量。数据来源于ODS层保留所有历史数据。业务实体、数据行、字段级的完整性在该层实现。DWSData WareHouse Service: 数仓服务层数仓的服务层与之前所提到的数据服务层不同DWS层为公共汇总层指标均可在DWS层落地。该层使用DWD层数据维度数据对业务上有关联的实体做连接形成统一粒度的跨业务流程的多业务实体的轻度汇总数据。DIMDimension: 数据维度层存储维度含主数据信息表或配置表来源数据质量高的ODS数据(如主数据)和DWD层数据。DMData Market: 数据集市层提供数据服务的分层有明确的分析主题基于具体的业务需求场景或者分析场景数据仅包含维度和指标没有复杂的逻辑处理。数据来源于DWD,DWS,DIM层大多数为指标宽表有较多的维度和指标。TMP临时数据处理层用于各层的数据加工处理过程中的临时数据处理临时需求场景加工数据的处理。
三、数仓公共开发规范
3.1 分层调用规范
数据分层的标准流向不含维度为ODS-DWD-DWS-DM标准流向中禁止出现反向依赖。
维度流向为DWD-DIM或者ODS-DIM使用ODS直接到DIM的情况必须保障足够高的数据质量。
DIM、DWS、DM可以往自身分层写入数据如不同粒度的数据写入。 数据流向如下图所示 3.2 数据类型规范
在保障数据不失真且不会增加数据存储复杂度不增加数据处理计算量的情况下尽量减少数据类型的数量兼容原始数据原有的类型。
数据类型依据具体的数据存储环境而定比如使用Apache Doris的情况如下:
ID类BIGINT标签枚举INT字符串STRING状态描述STRING日期DATE yyyy-MM-dd日期时间:DATETIME yyyy-MM-dd HH:mm:ss.SSSSSS业务数额类默认使用 DECIMAL精度根据实际情况做调整
3.3 数据冗余规范
宽表的冗余字段要确保以下原则
冗余字段要使用高频下游3个或以上使用。冗余字段引入不应造成本身数据产生过多的延后。冗余字段和已有字段的重复率不应过大原则上不应超过 60%如需要可以选择join或原表拓展。
3.4 NULL字段处理规范
数据类型为int的默认为-999数据类型为bigint的默认为-999999数据类型为decimal的默认为0
3.5 公共字段规范
所有数仓分层中的字段均为小写且不可出现中文。
物理表中的公共字段信息如下: 3.6 数据表处理规范
增量表: 依据具体的时间和其他标签粒度做对应的分区或多层分区处理过程中源表必须包含可增量的属性字段确保数据的完整性。全量表: 每次写入的数据都是最新的 每次写入的数据都是完整的全量数据。拉链表: 记录一个事物从开始一直到当前状态的所有变化的信息 拉链表每次上报的都是历史记录的最终状态是记录在当前时刻的历史总量 当前记录存的是当前时间之前的所有历史记录的最后变化量(总量)。
3.7 事实表划分规范
在维度建模中按粒度划分数据表分为维度表和事实表事实表包含三种事务型事实表周期快照型事实表累计快照型事实表。
事务型事实表 事务事实表记录事务层面的事实保存最为原子的数据其数据在事务发生后发生粒度为每一行数据。周期快照型事实表 有规律的可预见的时间间隔的业务累计数据比如按天、周、月等做业务的统计度量。累计快照型事实表 在整个业务的生命周期中表述业务多个阶段的开始和结束过程通常有多个时间字段并且时间不可预测随着阶段周期的变化记录也会随着变化而发生修改。
四、数仓各层开发规范
4.1 分层实例
数仓分册实例如下表所示 4.2 表的属性词条相关规范
表的属性中会存在以下的属性词条需要通过业务元数据去描述不直接通过表名避免表名太长的问题:
是否宽表时效: 实时和非实时更新方式:增量全量
以下属性需要通过表名去区分:
统计周期y表示年m表示月w表示周d表示天h表示小时mi表示分钟维度类型缓慢变化维(scd)非缓慢变化维。
4.3 ODS层设计规范
命名规则
ODS层表命名规则ods_[类别]_[表内容]。类别分为业务表business简称bsn快照表snapshot简称snap和补录表amended简称amd。示例ods_doris_load.ods_snap_stream_load其中ods_doris_load是库名doris是系统load 是导入库snap表示是快照表stream_load是stream_load导入方式表名。
处理内容
源系统数据的采集和同步保持和源系统数据的一致性。 处理过程分为实时和离线实时接入的数据需要有对应的数据写入状态(新增、修改、删除)实时数据写入时间。快照表处理 对于源表数据量少于100万的可按天/周/月不同的周期间隔做全量快照表 对于源表数据量大于1000万的需要根据业务主键做拉链表 对于源表数据量大于100万小于1000万的根据具体业务的需求做全量快照补录表处理主要针对业务系统中没有的数据需要导入或者补录平台录入的用以修复数据或者完善指标规则的如财务手工账订单时效的基线等。补录数据需要有以下约束固定的模板数据适用范围和有效期补录数据的更新机制补录数据更新后的数据处理机制补录表需在表中增加字段(表述补录类别和用途)。
4.4 DWD层设计规范
命名规则
DWD层表命名规则dwd_[实体名]示例dwd_doris.dwd_doris_load其中dwd_doris是库名doris表示AP域doris_load表示导入凭证
处理内容
数据的完整性包括实体的完整性(分段的业务表)数据行的完整性(不同阶段的业务周期的汇集)字段的完整性(关键业务字段)。数据清洗对于脏数据按规则进行清洗保障原子粒度的数据质量。维度关联映射。
4.5 DWS层设计规范
命名规则
DWS层表命名规则dws_[主题内容]_[统计周期]示例dws_doris.dws_load_d其中dws_doris是库名load是导入全流程相关的主题内容最后的d表示按天统计
处理内容
不同实体间的关联和逻辑转换。维度退化。不同粒度的指标度量表以及轻度汇总。不同类型的事实表。粒度较细的宽表。
4.6 DIM设计规范
命名规则
DIM表命名规则dim_[主题域][维度类型][维度],维度统一库名对于有主题域来源通过表名识别主题域。示例dim.dim_doris_scd_load其中dim表示维度的库名doris 表示AP域scd 表示缓慢变化维load表示导入维度
处理内容
维度的一致性和准确性。数据行中为空维度的兼容。缓慢变化维。
4.7 DM层设计规范
命名规则
DM层表命名规则dm_[项目/分析域][主题内容][统计周期]。示例dm_doris.dm_doris_load_d其中dm_doris是库名doris是表示AP项目load 表示导入相关的分析最后的d表示按天统计
处理内容
基于不同分析主题的宽表基于应用场景的维度和指标的提取。指标粒度的一致性。数据的高度汇总。保障维度完整性(所有的维度包含为空的兼容都可在维表中关联)。
4.8 TMP层设计规范
命名规则
TMP层表命名规则 ETL作业tmp_[分层库名_分层表名][流水] 临时使用的表:tmp[用户][表内容][有效期]
处理内容
ETL作业中的临时表可在ETL中临时创建和删除必须满足模型管理员清理TMP层数据策略的要求。临时使用的表必须有确定的生命周期不确定有效期的可设置较长的有效期模型管理- 员根据有效期和用户不定时沟通确认该临时表的清理计划。
五、总结 规范示例仅作为参考实际开发中需要根据业务要求和场景进行调整适配。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/89800.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!