智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么?”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因,业务人员会通过使用多维查询、dashboard等数据产品锁定问题,再辅助人工分析查找问题原因,这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析,但在业务方分析人员发生工作变动时,分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题,产品的基本功能如图1所示。 arch

图1 产品架构图

由上图可知,指标逻辑树就是我们抽象出来的智能异动分析数据产品的最佳实践。它将固定的分析方法和业务场景抽象出来,套用灵活的数据源(包含Kylin、MySQL、Elasticsearch、Druid等),自动生成符合各类用户的异动分析报告;它能够直接给出分析结论进而快速落实业务行动,降低分析成本和决策周期。选定两个时间周期,指定指标顺序,通过指标逻辑树就可找出导致核心指标发生异动的关键指标,同时可对单一指标进行细分维度拆分,锁定细分维度对整体的影响。

指标逻辑树作为一款支持酒旅各业务线的异动分析数据产品,面临的挑战如下:

  • 基础指标多、维度多,且来自于不同的数据源。

  • 支持多种异动分析算法。

  • 自定义计算指标。

针对上面的挑战,我们给出如下的解决方案。

体系架构

arch

图2 指标逻辑树体系架构

如图2所示: 1. 指标计算,用于解决基础指标多、维度多,且来自于不同数据源的问题以及自定义计算指标的问题; 2. 分析算法,用于支持多种异动分析算法; 3. 计算服务,采用master-work的方式解决查询性能的问题。

具体方案

指标计算

指标计算包含指标漏斗、基础指标序列、指标分类,它们之间的关系如图3所示。 yg-datasources

图3 指标计算

如图3所示,指标漏斗为用户自定义的有序指标序列,包含基础指标和计算指标(如,B=(L+H)*Y) ;基础指标序列,是将指标漏斗中的计算指标按照顺序拆分之后的指标序列;指标分类采取大圣魔方(可以参考大圣魔方:https://tech.meituan.com/dsmf.html )配置的规则对基础指标进行分类。

分析算法

目前指标逻辑树支持两种异动分析算法,后续可以根据需要进行扩展。 * 生成瀑布分析图的连环迭代分析法。 * 根据指标下钻维度方案,生成单个指标解释度的基尼系数算法。

下面分别介绍这两种算法在指标逻辑树中的运用。

连环迭代分析法

连环迭代分析法,用于从用户自定义的有序指标列表中找出导致核心指标发生异动的关键指标,如图4可知,本期结果指标E产生的波动,主要由于A指标的波动影响。

图4 瀑布分析图

图5 指标漏斗

如图5所示,意向UV、访购率、人均单量、连带率、SKU单价等几个指标中的任意一个发生数据波动,都可能引起支付GMV的波动。采用连环迭代分析法,可以确定某个具体指标在本期支付GMV的波动中产生的影响最大。算法公式,支付GMV=意向UV*访购率*人均单量*连带率*SKU单价。

基尼系数

基尼系数A/(A+B),用于计算各下钻维度方案对单个指标波动的影响程度,横轴用特征分组基期累计占比,纵轴用波动值累计占比(可以为负值),基尼系数越大说明该特征对波动的解释效果越好。

图6 基尼系数计算

如图6所示,指标计算,用于获取层级下钻维度中各个维度的基础数据,如各个城市等级的本期、基期值等信息;分析算法,根据维度基础数据计算出排序因子,利用排序之后的排序因子计算各特征分组的基期累积占比及波动值累计占比,进而获取到基尼系数;最终选取基尼系数最大的特征作为最终解释。

计算服务

随着业务分析需求的增加,分析用户自行配置的指标序列以及针对单个指标的下钻维度方案将会急剧增加,随之带来的影响就是单个请求需要支持大量的查询任务,因而提升并行计算能力是提升系统性能的一个关键因素。如图7所示,计算服务包括任务拆分、并行计算和结果合并。

图7 计算服务

任务拆分

任务拆分分为如下几个步骤: * 将指标漏斗中的计算指标拆分成基础指标。 * 填充基础指标的细化维度方案,记录指标的各个维度方案及各方案下的层级下钻维度。 * 对基础指标按照数据模型和维度方案进行分类。

并行计算

并行计算提供分布式计算功能,主要处理的是任务拆分之后的细粒度查询任务。

查询任务主要有以下两类: * 按照数据模型分类之后的指标序列查询任务,需要分别查询本期和基期值,查询量相对较少。 * 按照数据模型和维度方案分类之后的查询任务,需要分别查询本期和基期值,涉及到细化维度,查询量比较大。

结果合并

结果合并主要是针对计算指标来说的,计算指标是分析用户自定义的针对基础指标的一组计算公式。并行查询的结果是针对基础指标的,需要合并基础指标的查询结果数据,生成符合计算公式的指标数据。结果合并模块需要做两部分的工作,一是解析计算公式,二是根据已有的数据,按照计算公式生成新的数据。

系统中用到数据组装的模块主要有如下: * 如图8所示,根据拆分之后的基础指标数据,生成满足计算公式的计算指标数据。 * 如图9所示,根据拆分之后的下钻维度基础数据,分别计算出各个维度的数据,生成符合计算公式的下钻维度数据。

图8 计算指标数据组装

图9 指标下钻维度数据组装

指标逻辑树在美团点评酒店旅游各业务线中已经得到了一定的应用,并收获了大量好评。本文只是指标逻辑树的一个总纲,目前产品尚处于初级阶段,后续还有很多功能需要完善。

最后插播一个招聘广告,有对数据产品工具开发感兴趣的可以发邮件给 fuyishan@meituan.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生研究方向 | 知识图谱,图神经网络,多模态论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf发表会议:EMNLP 2020背景提要抽取式阅…

为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos编 | 小戏不知你是否有过这样的体验,当你周围有人在大声讲电话时,你会不自觉的感觉到烦躁。为什么呢?有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息,但…

LeetCode 367. 有效的完全平方数(二分查找)

1. 题目 给定一个正整数 num,编写一个函数,如果 num 是一个完全平方数,则返回 True,否则返回 False。 说明:不要使用任何内置的库函数,如 sqrt。 示例 1: 输入:16 输出&#xff1…

美团点评联盟广告场景化定向排序机制

在美团点评的联盟广告投放系统(DSP)中,广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序,由于召回的候选集合较多,出于工程性能上的考虑,不能一次性在精…

论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

笔记整理 | 谭亦鸣,东南大学博士生来源:COLING 2020链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf本文发现,目前基于GCN的对齐方法都是分别考虑两个KG,然后分别学习它们的embedding,并认…

LeetCode 744. 寻找比目标字母大的最小字母(二分查找)

1. 题目 给定一个只包含小写字母的有序数组letters 和一个目标字母 target,寻找有序数组里面比目标字母大的最小字母。 数组里字母的顺序是循环的。举个例子,如果目标字母target ‘z’ 并且有序数组为 letters [‘a’, ‘b’],则答案返回…

NLP 综述的综述

NLP 综述的综述:https://mp.weixin.qq.com/s/3DvXDLFQJnIrXFWVGowTjw

超越YOLOv5,1.3M超轻量,高效易用,这个目标检测开源项目太香了!

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode。这个神器就是刚刚全面升级的PaddleDetection2.0!它全面兼顾高性能算法、便捷开发、高效训练及完备部署&#xff…

MyFlash——美团点评的开源MySQL闪回工具

由于运维、DBA的误操作或是业务bug,我们在操作中时不时会出现误删除数据情况。早期要想恢复数据,只能让业务人员根据线上操作日志,构造误删除的数据,或者DBA使用binlog和备份的方式恢复数据,不管那种,都非常…

论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

笔记整理 | 王琰,东南大学来源:ACL 2020链接:https://arxiv.org/pdf/2005.02472.pdf概述本论文引入一项新任务:多媒体事件提取(ME),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外&#x…

屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……

文 | 魏旭编 | 橙橙子,小戏当 BERT 模型出来之后,Transformer 架构基本成为 NLP 任务的底色。诸如 Roberta、XLNet、ELECTRA、GPT3 等刷榜各类 NLP 任务的模型,无一不是基于 Transformer 框架。无疑,Transformer 开启了 NLP 的统治…

day01『NLP打卡营』实践课1:词向量应用演示

Day01 词向量作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课1:词向量应用展示 课后作业。 1. 选择词向量预训练模型 在PaddleNLP 中文Embedding模型查询PaddleNLP所支持的中文预训练模型。选择其中一个模型,如中文维基百…

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台…

论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱、自然语言处理接收会议 | AAAI2021论文链接 | https://arxiv.org/pdf/2009.06207.pdf摘要在自然语言处理和知识图谱领域的信息提取中,三元组抽取是必不可少的任务。在本文中&…

LeetCode 101. 对称二叉树(递归循环)

1. 题目 给定一个二叉树,检查它是否是镜像对称的。 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。1/ \2 2/ \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称的:1/ \2 2\ \3 3来源:力扣(LeetCode&#x…

剑桥大学终身教授T.S.:7大机器学习算法与应用案例

机器学习和人工智能可被应用在文本翻译、面部检测和识别、自动驾驶汽车和诸如国际象棋和围棋一类的极为复杂的控制类游戏等领域,其最新发展日益受到越来越高的关注。本次为大家推荐的科研项目,还是来自于ViaX盐趣,导师是来自剑桥大学计算机系…

Day03『NLP打卡营』实践课3:使用预训练模型实现快递单信息抽取

Day03 词法分析作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课3:使用预训练模型实现快递单信息抽取 课后作业。 1. 更换预训练模型 在PaddleNLP Transformer API查询PaddleNLP所支持的Transformer预训练模型。选择其中一个模型&…

会议交流 | 2021年全国知识图谱与语义计算大会(CCKS 2021)征稿通知

2021年全国知识图谱与语义计算大会征稿通知(第一轮)First Call for Full Papers2021年8月18日-21日,广州征稿截止: 2021年5月10日第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Co…

美团外卖自动化业务运维系统建设

美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰值突破1600万,还不…

把数据集刷穿是什么体验?MetaQA已100%准确率

文 | 炼丹学徒编 | 小轶开始炼丹以来,估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率,然后大吼一声:这数据集,我做到头了!然而愿望终究是愿望。大多时候,看着自己手头上用了浑身解数才提了零…