解释现实世界数据中的变化
深度学习成功证明了统计相关的强大能力:如果某些图像特征与"猫"标签持续相关,就可以训练机器学习模型识别猫。但有时,仅有关联还不够;需要识别因果关系。例如,在COVID-19疫情期间,零售商可能发现特定产品库存急剧下降。是什么导致了这种下降?需求增加?供应短缺?运输延迟?预测模型失败?解决方案可能因原因而异。
在国际人工智能与统计会议(AISTATS)上,我们提出了一种识别概率分布变化原因的新技术。我们的方法涉及因果图,这是顺序过程的图形蓝图。
图的每个节点及其传入边代表一个因果机制,即给定事件跟随前驱事件发生的概率。我们展示了如何计算单个机制变化对最终结果概率变化的贡献。
方法验证
我们使用模拟数据测试方法,因此可以规定单个因果机制的概率,提供测量基准。我们的方法产生了非常接近基准的估计——根据L1距离,偏差仅为0.29。即使在小样本量下——从我们规定的概率分布中随机抽取仅500个样本,我们也实现了这一性能。
考虑一个因果图,代表影响零售商手头库存量的因素。(这是极度简化的;真实世界库存计数的因果图可能有数十个因素,而不是五个。)
在这个简化模型中,模拟系统估计补充库存的成本(X1);预测算法估计需求(X2);规划算法(X3)确定采购订单的大小和时间;竞价(X4)机会性地发生,如当大量产品以折扣价可用时;所有这些因素共同影响手头库存(X5)。
因果机制分析
此网络中的每个输入-输出关系都有相关的条件概率分布,或称因果机制。与单个因果机制相关的概率决定所有变量(X1-X5)的联合分布,或任何给定变量组合共同发生的概率。这又决定了目标变量——手头库存量的概率分布。
最终结果的重大变化可能伴随着图中所有因果机制的变化。我们的技术识别变化对结果变化负最大责任的因果机制。
我们的基本见解是,图中的任何给定因果机制原则上都可以在不影响其他机制的情况下改变。因此,给定因果图、初始因果机制和暗示新因果机制的数据,我们逐个更新因果机制以确定每个对结果的影响。
解决顺序依赖问题
这种方法的问题是,我们对每个节点贡献的测量取决于更新节点的顺序。测量评估改变节点因果机制给定图中其他变量每个可能值的后果。但当我们更新因果机制时,这些值的概率会改变。因此,根据哪些因果机制已更新,我们会得到不同的测量结果。
为解决此问题,我们遍历每个更新顺序的排列并平均每个节点的结果,这是从博弈论中称为计算Shapley值的技术改编而来。
实际应用
当然,在实践中,因果机制是我们必须从数据推断的;我们不是提前给定概率分布。但为测试方法,我们创建了一个简单因果图,可以在其中规定分布。然后,使用这些分布,我们生成了数据样本。
在我们图的因果机制的100个不同随机变化中,我们的方法表现非常好;每次变化500个数据样本,它实现了与基准的平均偏差0.29,按L1距离测量。我们的基准至少是3维向量(最多6维),至少有一个分量大小至少为1(最多五个)。因此,最坏情况下0.29的L1距离仍然是相对较小的距离。
我们测试了不同量的数据样本,从500到4,000,但添加更多样本对近似精度影响很小。
在内部,我们还将技术应用于供应链管理问题。对于特定产品系列,我们能够识别疫情期间手头库存稳步下降的原因,而该数字在前一年保持稳定。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码