解决推理能力瓶颈,用因果推理提升LLM智能决策

news/2025/9/24 7:05:42/文章来源:https://www.cnblogs.com/dBjZoQ833/p/19108473

从ChatGPT到现在的智能体AI这个跨越说明了一个关键转变。ChatGPT本质上是个聊天机器人,生成文本回应;而AI智能体能够自主完成复杂任务——销售、旅行规划、航班预订、找装修师傅、点外卖,这些都在它的能力范围内。

目前我们解决用户任务时,主要是让大语言模型(LLM)做任务分解,这也是和生成式AI重叠的地方。但问题就出在这里:

今天的智能体AI系统被LLM的推理能力限制住了——这个问题在苹果的两篇论文1、2里讨论得很深入。
核心问题来自智能体AI系统的非确定性特征。看看下面这个电商场景:

执行计划里有两个非确定性操作:"检查信用"和"配送模式"。配送模式意味着用户既可以自提也可以送货上门,所以配送这个任务可能根本不会执行。这种非确定性带来一个问题:

我们需要一个多步推理模型来理解底层智能体组件之间的因果关系。
这里涉及一个经典问题:相关性不等于因果关系。不管LLM规模多大,它们本质上只能抓住训练数据中特征之间的统计相关性,然后做预测。因果关系虽然暗示相关性,但这种影响可能微弱到可以忽略。

当前LLM缺少的正是因果关系理解。
接下来我们看看如何通过因果关系和内省来解决智能体工作流中的非确定性问题,前者用于LLM训练阶段,后者用于推理阶段。

因果推理的作用机制
因果关系研究的是事物"为什么"发生。它能够规范性地解释为什么某些行动比其他行动效果更好,从而影响未来结果。正如亚里士多德说的:"如果你证明了原因,你就立即证明了结果;反之,没有任何事物可以在没有其原因的情况下存在。"

人类天生具有因果思维。我们依靠因果关系做决策、制定计划、解释行为、适应变化,基本上所有决策都是基于对后果的考量。

Gartner在2024年AI技术成熟度曲线中把因果AI放在"创新触发"阶段,分析师的评价是:

因果AI识别并利用因果关系,超越基于相关性的预测模型,让AI系统能够更有效地给出行动建议并更自主地执行。当我们需要更稳健的预测能力,以及更精准地确定影响特定结果的最佳行动时,因果AI就显得至关重要。
因果AI能够影响智能体AI生命周期的多个环节,特别是推理、可观察性和可解释性这几个方面。

LLM推理能力的现实困境
苹果最近的研究(论文1)深入分析了LLM的推理局限性。研究发现,当面对以下情况时,最先进的LLM准确率会显著下降:同一问题的不同表述版本、包含多个条件的复杂问题、以及看起来相关但实际无关的干扰信息。

这些限制导致准确率下降高达65%,主要是因为模型难以分辨相关信息和处理复杂问题。

另一篇论文2进一步揭示,前沿的大型推理模型(LRM)在问题复杂度超过某个阈值时会出现准确率完全崩溃。更反直觉的是,这些模型表现出奇怪的扩展限制:推理努力程度会随问题复杂度增加到某个点,然后即使token预算充足也会下降。就算提供明确的人类输入(实际解决方案描述或算法),在这个阶段也无济于事。

这些发现暴露了依赖LLM解决问题的风险。LLM看起来无法进行真正的逻辑推理,只是在模仿训练数据中观察到的推理步骤。

要让AI真正具备推理和问题解决能力,它必须在算法层面理解因果关系。
换句话说,需要理解事物发生的动态机制,这样才能探索各种"假设"情况。这类似于人脑的新皮层功能,负责高阶推理,比如决策、规划和感知。

为了达到这个目标,我们建议在LLM/LRM的训练和微调过程中加入因果AI作为核心组件,同时结合知识图谱。

LLM推理——在LLM/LRM训练中提供WHAT、HOW和WHY成分

因果AI能够提供几个关键的推理组件:根本原因分析(检测和排序导致结果的因果驱动因素),假设场景和反事实分析(确定替代行动相对于当前状态的后果),可解释性(解释为什么某些行动比其他行动更优),混杂因子识别(找出无关、误导或隐藏的影响因素),以及路径分析(理解相互关联的行动和达成结果的行动序列)。

实现方式是将传统神经网络架构与因果推理技术结合,在神经网络内部推断因果路径。这意味着在训练数据集中建模因果关系,理解特征间的关系、相互影响方式以及对预测的作用。

举个例子,下面的图5展示了一个用于评估贷款申请信用风险的推断因果模型。红色箭头表示特征与信用度呈负相关,绿色箭头表示正面的因果驱动因素,箭头粗细代表因果关系的强度。
更多案例:
github.com/yjndsrt/cn/issues/916
github.com/yjndsrt/cn/issues/915
github.com/yjndsrt/cn/issues/914
github.com/yjndsrt/cn/issues/913
github.com/yjndsrt/cn/issues/912
github.com/yjndsrt/cn/issues/911
github.com/yjndsrt/cn/issues/910
github.com/yjndsrt/cn/issues/909
github.com/yjndsrt/cn/issues/908
github.com/yjndsrt/cn/issues/907
github.com/yjndsrt/cn/issues/906
github.com/yjndsrt/cn/issues/905
github.com/yjndsrt/cn/issues/904
github.com/yjndsrt/cn/issues/903
github.com/yjndsrt/cn/issues/902
github.com/yjndsrt/cn/issues/901
github.com/yjndsrt/cn/issues/900
github.com/yjndsrt/cn/issues/899
github.com/yjndsrt/cn/issues/898
github.com/yjndsrt/cn/issues/897
github.com/yjndsrt/cn/issues/896
github.com/yjndsrt/cn/issues/895
github.com/yjndsrt/cn/issues/894
github.com/yjndsrt/cn/issues/893
github.com/yjndsrt/cn/issues/892
github.com/yjndsrt/cn/issues/891
github.com/yjndsrt/cn/issues/890
github.com/yjndsrt/cn/issues/889
github.com/yjndsrt/cn/issues/888
github.com/yjndsrt/cn/issues/887
github.com/yjndsrt/cn/issues/886
github.com/yjndsrt/cn/issues/885
github.com/yjndsrt/cn/issues/884
github.com/yjndsrt/cn/issues/883
github.com/yjndsrt/cn/issues/882
github.com/yjndsrt/cn/issues/881
github.com/yjndsrt/cn/issues/880
github.com/yjndsrt/cn/issues/879
github.com/yjndsrt/cn/issues/878
github.com/yjndsrt/cn/issues/877
github.com/yjndsrt/cn/issues/876
github.com/yjndsrt/cn/issues/875
github.com/yjndsrt/cn/issues/874
github.com/yjndsrt/cn/issues/873
github.com/yjndsrt/cn/issues/872
github.com/yjndsrt/cn/issues/871
github.com/yjndsrt/cn/issues/870
github.com/yjndsrt/cn/issues/869
github.com/yjndsrt/cn/issues/868
github.com/yjndsrt/cn/issues/867

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

昆明市网站制作公司网站一般多少钱一年

摘要: 准备工作 开通阿里云直播服务:阿里云直播服务接收直播流,并提供直播播放地址,完成一场直播需要先开通阿里云直播服务,在 直播官网详情页 中单击 立即开通 ,开通阿里云直播服务。 如您已经能够使用阿里…

做個app网站价格做舞美的好素材网站j

目录 一、目标二、计划三、完成情况1.宏观思维导图2.过程中的团队管理和其它方面的思考 四、意外之喜(最少2点)1.计划内的明确认知和思想的提升标志2.计划外的具体事情提升内容和标志 一、目标 通过参加考试,训练学习能力,而非单纯以拿证为目的。 1.在复…

网站建设中 windows运动网页设计

导出建库表索引等: [rootlnpg ~]# mysqldump -ugistar -pxxx -h192.168.207.143 --no-data -d lndb > lndb20230223-1.sql 只导出索引:参考:MYSQL导出现有库中的索引脚本_mysql 导出数据库所有表的主键和索引-CSDN博客 -- MYSQL导出现有…

高端手机网站 制作公司微信公众平台登录入口官网

Go基础之锁的初识 当我们的程序就一个线程的时候是不需要用到锁的,但是通常我们实际的代码不会是单个线程的,所有这个时候就需要用到锁了,那么关于锁的使用场景主要涉及到哪些呢? 当我们多个线程在读相同的数据的时候则是需要加锁…

自己做一元夺宝网站车之家汽车报价2022官网

Koa 和 Express 都会使用到中间件 Express的中间件是顺序执行,从第一个中间件执行到最后一个中间件,发出响应如上图 Koa是从第一个中间件开始执行,遇到 next 进入下一个中间件,一直执行到最后一个中间件,在逆序&#x…

如何做地方门户网站默认网站停止

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 从零开始学习数据结构与算法:Python实现 数据结构与算法是计算机科学中至关重要…

中国空间站距离地面多少公里中英文网站设计

1、将变量名作为实参和形参: 这时传给形参的是变量的值,传递是单向的。如果在执行函数期间形参的值发生变化,并不传回实参。应为在调用函数时,形参和实参不是同一个存储单元。 2、传递变量的指针: 形参是指针变量&a…

网站建设优化外包域名备案与网站不一致

位图缓存是专用RAM缓冲区,应用可将位图保存(或缓存)在其中。 如果缓存了位图,在绘制位图时,TouchGFX将自动使用RAM缓存作为像素来源。位图缓存在许多情况下十分有用。 从RAM读取数据通常比从闪存读取要快(特…

北京好网站制作公司哪家好网站排序

元旦准备买NDS,顺带关注了下PSP,其实是想,或许买PSP也不错~PSP很像一个平台,提供了很多东西,譬如官方的PS模拟器~在上面编程也是个不错的想法。国外的一个网站提供了很多信息,PS2Dev Network (http://www.p…

石家庄学做网站建设培训学校企业网站管理系统手机版教程

A.Wrong Answer(模拟) 题意: 给你两个整数 A A A和 B B B,它们介于 0 0 0和 9 9 9之间。 输出任何一个介于 0 0 0和 9 9 9之间且不等于 A B AB AB的整数。 分析: 按题意判断并输出一个整数即可。 代码&#xff…

建设银行网站服务功能网站制作的流程包括

在计算机视觉中,特别是在相机标定和立体视觉领域,内参(intrinsic parameters)和外参(extrinsic parameters)是非常重要的概念。它们与相机的几何属性和姿态有关。 内参(Intrinsic Parameters&am…

宝安区建设工程交易服务中心做网站优化的弊端

目录 一、本节介绍 1 上集回顾 2 本节介绍 二、原理分析 1 现实中出现彩色的原因 2 软件里的彩色的原理 3 方案 三、 实现数字由【-1,1】映射为【0,1】 1 结论 2 原理 四、代码实现 1 注意事项 2 详解结构体appdata_base 3 接收数据 4 映射数据 5 输出给SV_TAR…

天津市网站建设公司wordpress在哪里注册

1 事件概述 CAPL是一种面向过程、由事件驱动的类C语言。 事件驱动针对于顺序执行,其区别如下: 顺序执行:顺序执行流程中,子例程或过程函数按照代码编写顺序逐句执行。 事件驱动:CAPL程序由事件驱动,工程…

网站开发具体做什么的商贸有限公司名称大全

来源:本文经公众号「雷克世界」授权转载(微信号:ROBO_AI) 作者:DeepMind 编译:嗯~阿童木呀、多啦A亮 概要:在将强化学习(RL)扩展到复杂序列决策问题(sequen…

买网站不给我备案开发网站需要租服务器

我们提出了 Follow-Your-Emoji,这是一种基于扩散的肖像动画框架,它使用目标地标序列对参考肖像进行动画处理。肖像动画的主要挑战是保留参考肖像的身份并将目标表情转移到该肖像,同时保持时间一致性和保真度。为了应对这些挑战,Fo…

designer怎么做网站整合营销策划方案

知识改变命运,技术就是要分享,有问题随时联系,免费答疑,欢迎联系! 厦门微思网络​​​​​​ https://www.xmws.cn 华为认证\华为HCIA-Datacom\华为HCIP-Datacom\华为HCIE-Datacom Linux\RHCE\RHCE 9.0\RHCA\ Oracle O…

长沙营销网站建设公司共享会议室租赁平台

1、 根目录 .\\ 或者直接给出文件名称,是找根目录的路径。 如:path "gs.mdb" 与 path ".\\gs.mdb"是一个意思。 2、 根目录的上级目录, 在C#中是指定到bin文件夹里面 ..\\ 应用程序的根目录的上两级 3、指定到根目录上面的三级目录…

购物网站排名2017win7下asp网站搭建

目录 概述实践安装插件docker 在线安装containerd安装二进制安装yum安装修改containder配置文件 cnietcdrsyncgo设置golang代理 安装CFSSL下载kubernetes代码编译启动本地单节点集群问题k8s没有被正常启动该如何k8s正常启动日志测试 结束 概述 此文详细说明在 centos 7上编译 k…

全球中文网站排名天价索赔背后的平台版权对垒

一、介绍 在上篇文章中,我们介绍了 apache poi 工具实现 excel 文件的导入导出。 本篇我们继续深入介绍另一款优秀的 excel 工具库:easypoi。 二、easypoi 以前的以前,有个大佬程序员,跳到一家公司之后就和业务人员聊上了&…

常州的平台公司网络优化工作内容

在源码的世界里,越来越多的优秀源码涌现,开源的世界不但代表他的优秀,也代表了他优秀的传播途径。 https://github.com/ github自从2008年现世,可谓是后来者居上。开源代码的公开库,优秀程序员的博客园,热心…