实时数据仓库已经成为各大企业构建核心指标监控与业务实时洞察的基础能力。面试中,关于实时建模的题目频繁出现,尤其聚焦于建模思路、宽表设计、状态管理、乱序处理等方面。本文整理典型题目及答题思路,帮助你应对相关考察。
一、建模原则与数仓分层认知
1. 实时数仓与离线数仓建模有什么区别?
答:
维度 | 离线建模 | 实时建模 |
---|---|---|
数据来源 | 批量导入,数据快照 | 流式数据,如 Kafka |
数据一致性 | 可批量补数,强一致性 | 补数困难,更强调最终一致 |
表设计方式 | 精细分层、维度规范化 | 宽表为主,强调性能 |
乱序处理 | 不敏感 | 需处理乱序、延迟、重复等问题 |
状态管理 | 无状态 | 需管理窗口状态、延迟数据 |
2. 实时 DWD 层怎么建模?举例说明
答:
实时 DWD 层关注业务事件建模,常按事件类型建模。
举例:电商实时订单数仓
-
dwd_trade_order_detail_rt
:订单明细流表(维度冗余) -
dwd_trade_payment_rt</