完整教程:【论文阅读】具身人工智能:从大型语言模型到世界模型

news/2025/10/3 17:49:22/文章来源:https://www.cnblogs.com/slgkaifa/p/19124807

完整教程:【论文阅读】具身人工智能:从大型语言模型到世界模型

论文链接:https://arxiv.org/pdf/2509.20021

本文全面综述了具身人工智能领域的现状,特别强调了整合多模态大语言模型(MLLM)和世界模型(WM)的协同潜力。它提出了一种联合MLLM-WM驱动的架构,以克服各自的局限性,并推进具有物理基础和语义智能的智能体。

引言

具身人工智能 (EAI) 代表着一种根本性的转变,它将传统的在数字环境中运行的AI系统转变为能够在物理世界中感知、推理和行动的智能代理。Feng 等人撰写的这份综合性调查报告审视了具身人工智能从其理论基础到由大型语言模型 (LLMs)、多模态大型语言模型 (MLLMs) 和世界模型 (WMs) 驱动的尖端达成的演变。该研究利用提出一种集成架构,将 MLLMs 的语义推理能力与 WMs 的物理感知模拟能力相结合,解决了该领域的一个关键空白,并将这种综合视为实现通用人工智能 (AGI) 的关键。

由 MLLM-WM 驱动的具身 AI

图:所提出的由 MLLM-WM 驱动的具身 AI 联合架构,展示了语义推理能力与物理感知世界建模的整合,以实现全面的任务规划、主动感知和动态交互。

理论基础与演进

该论文将具身人工智能的哲学根源追溯到艾伦·图灵 (Alan Turing) 1950 年提出的“具身图灵测试”概念,该概念认为真正的智能源于与环境的物理交互。这一观点建立在认知科学原理之上,特别是 Lakoff 和 Johnson 的具身认知理论以及 Harnad 的符号接地问题,这些理论都认为有意义的智能需要物理世界中的感觉运动经验。

从以 Brooks 的包容式架构和 Cog 项目为代表的早期基于行为的机器人手艺,到现代深度学习支持的系统,历史进程展示了向更复杂的感知-行动循环持续发展的轨迹。作者们确定了定义具身人工智能系统的三个核心组成部分:

主动感知包括代理通过视觉SLAM、3D场景理解和主动探索策略获取和解释环境信息的能力。与被动感知不同,主动感知涉及指导后续行动的蓄意信息搜寻行为。

具身认知涉及处理多模态输入以生成语义理解、任务规划和记忆管理。该组件将高级推理与环境背景相结合,使代理能够将艰难目标分解为可执行的子任务。

动态交互涵盖在物理世界中执行动作,包括运动控制、行为适应以及与其他代理或人类的协作决策。

LLMs 和 MLLMs 在具身 AI 中的作用

大型语言模型利用引入复杂的语义推理能力,实现了自然语言指令遵循和复杂任务分解,从而彻底改变了具身人工智能。该论文追溯了从早期语言条件下的机器人架构(如 SayCan (2022))到包括 PaLM-E、RT-2 和 OpenVLA 在内的更近期多模态方法的演变。

MLLMs 经过将视觉、听觉和触觉输入与语言处理相结合,扩展了 LLM 的能力,创建了能够将高级多模态指令映射到低级运动动作的端到端系统。作者将这些模型分为:

视觉-语言模型 (VLMs),它们结合视觉感知和语言理解,用于具身情境中的场景描述和视觉问答等任务。

视觉-语言-行动模型 (VLAs),它们直接输出运动指令,达成从多模态输入到物理动作的端到端控制。

MLLM驱动的具身智能(EAI)的关键创新在于它能够弥合人类指令与机器人动作之间的语义鸿沟。例如,当收到“清理厨房”的指令时,MLLM能将其分解为具体的子任务,如“找到脏盘子”、“拿起盘子”和“放入洗碗机”,同时处理视觉输入以识别相关物体并规划适当的动作。

用于物理感知交互的世界模型

世界模型解决了MLLM驱动框架的一个根本性限制:缺乏物理感知推理和预测能力。世界模型创建环境动态的内部表征,使智能体能够在真实世界中执行之前模拟潜在的动作序列及其后果。

该论文将世界模型分为三种架构范式:

基于循环状态空间模型(RSSM)的世界模型例如Dreamer-v3,利用循环神经网络建模时间依赖性和状态转换,在连续控制任务和长周期规划方面表现出色。

基于联合嵌入预测架构(JEPA)的世界模型学习抽象表征,捕捉关键环境特征同时舍弃不相关细节,从而实现高效的预测和规划。

基于Transformer的世界模型利用注意力机制来建模艰难的时空关系,对于处理多模态感知输入和长序列预测尤其有效。

通过世界模型的数学基础能够表示为学习一个预测未来状态的函数$f$:

$$
s_{t+1} = f(s_t, a_t, \theta)
$$

其中$s_t$表示当前状态,$a_t$是采取的动作,$\theta$是学习到的模型参数。这种预测能力拥护基于想象的规划,智能体可以在模拟中评估多个动作序列,然后再进行真实世界中的执行。

所提出的联合MLLM-WM架构

该论文的核心贡献在于识别出纯MLLM方法和纯WM方式中互补的局限性,从而提出了一种整合架构,该架构利用了两种范式的优势。

MLLM的局限性包括未能将预测基于符合物理的动力学,以及对环境变化的实时适应性差。尽管MLLM擅长语义推理和任务分解,但它们通常生成的动作可能违反物理约束,或在环境条件意外变化时无法适应。

WM的局限性通过包括在开放式语义推理方面的不足以及缺乏可泛化的任务分解能力。世界模型能够准确模拟物理动力学,但无法解释自然语言指令或将抽象目标分解为具体的动作序列。

所提出的联合架构创造了协同互动:

MLLM增强世界模型:来自MLLM的语义知识丰富了WM的表征,从而构建更好的任务分解和长周期规划。例如,一个理解“准备早餐”的MLLM可以引导世界模型关注相关的厨房物品及其相互作用。

世界模型增强MLLM:来自世界模型的物理约束和时空上下文将MLLM的推理锚定在现实中,通过基于仿真的反馈提供迭代细化。这确保了规划的动作在物理上是可行的,并且环境上是合适的。

该架构的工作流程涉及感知系统、MLLM推理模块、WM仿真组件和动作执行系统之间的持续交互,从而形成一个闭环学习过程,实现终身适应和改进。

应用与实际影响

该调查展示了具身智能(EAI)在不同领域的实际意义:

服务机器人应用包括家庭辅助、老年护理和酒店服务,在这些应用中,机器人必须理解自然语言指令,在复杂环境中导航,并能安全地在人类周围操作物体。

救援无人机应该高效环境评估、在危险条件下自主导航以及为搜救行动进行智能决策。

工业机器人受益于能够学习新任务、与人类工人协作并根据不同的生产要求保持质量标准的自适应制造系统。

这些应用突出了集成多模态大语言模型-世界模型(MLLM-WM)系统的必要性,该体系结合了语义理解和物理感知交互能力。

未来研究方向

本文确定了几个必须进一步研究的关键领域:

自主具身智能发展侧重于通过改进的自学习和适应能力来减少人工干预,使智能体能够在新环境中独立操作。

硬件优化消除了集成多模态大语言模型-世界模型(MLLM-WM)系统的计算需求,需要高效架构、实时处理能力和节能实现方面的进步。

群体具身智能探索多智能体协调和协作,即多个具身智能体共同完成超出个体能力的复杂任务。

可信度和可解释性确保具身智能体能为其行为提供透明的推理,这对于安全关键应用和人机交互场景尤为重要。

意义与影响

这项工作为理解具身人工智能研究的现状和未来方向提供了一个全面的框架。通过识别多模态大语言模型(MLLM)和世界模型(World Model)的互补性,本文为研发更强大、更可靠的具身智能体提供了清晰的路线图。所提出的联合架构解决了当前方法中的根本局限性,同时保持了两种范式的优势。

其意义不仅限于学术贡献,还延伸到对机器人技巧、自主系统和人机交互的实际影响。通过将语义推理与物理感知仿真相结合,这项工作推动了该领域向真正智能的智能体发展,使其能够在复杂、动态的环境中有效运行,同时保持实际部署所需的安全性与可靠性标准。

对现有文献的全面分析、对研究空白的清晰识别以及具体的架构提案,使这项综述成为致力于下一代具身人工智能系统的研究人员和实践者的宝贵资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926148.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android达成RecyclerView粘性头部效果,模拟微信账单列表的月份标题平移

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

实用指南:【C语言】char * 、char [ ]、const char * 和 void *的使用以及区别

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

常德网站优化公司东莞大岭山天气预报

【我是谁】 1.学历:22届双非本科校企合作(软外,软件工程服务外包),编程课大部分是印度的NIIT老师上课,印式英语一点儿听不懂。。。所以大学全都自学的,和非科班的也没什么区别和优势&#xff0c…

PowerShell注意点

$()和${}的区别: $()表示命令替换,将括号内的命令执行后得到的输出作为值。 例如,$(ls)将会执行ls命令后得到当前目录下的文件列表作为值。 ${}表示变量替换,将大括号内的变量的值作为值。 例如,${a}将取变量a的值…

自动化脚本的自动化执行实践 - 详解

自动化脚本的自动化执行实践 - 详解2025-10-03 17:36 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !imp…

做商业网站的服务费维护费直播型网站开发

在Kotlin中,注解(Annotations)是一种用于在程序代码中添加元数据的特殊标记。它们提供了对代码的描述性信息,但本身并不会影响程序的运行。注解可以应用于类、方法、属性等程序元素上,用于提供关于这些元素的额外信息。…

m3u8转mp4软件中文版推荐与使用指南

近年来,随着在线视频的普及,m3u8格式的流媒体文件变得越来越常见。不少用户希望将m3u8文件转换为通用的mp4格式,便于本地保存、播放或分享。那么,选择一款好用的m3u8转mp4软件中文版,就成了很多小伙伴的需求。下面…

Unity简易事件分发器

一、EventFunctionusing System; namespace EventCore {public struct EventFunction{public object _caller;public Action _action;}public struct EventFunction<T>{public object _caller;public Action<…

react怎么做pc网站外贸soho建站

本文给大家整理了腾讯视频网页下载_腾讯视频怎么下载视频方面的内容。腾讯视频独播剧质量还是可以的&#xff0c;比较给力的是腾讯视频大量买入了老剧的版权&#xff0c;不乏一些比较经典的港剧&#xff0c;还把这些老剧修复了。腾讯视频播放器是一款支持多种音视频格式的主流播…

实用指南:1、docker入门简介

实用指南:1、docker入门简介pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco"…

调试parlant的大模型配置,最终自己动手写了g4f的模块挂载 - 教程

调试parlant的大模型配置,最终自己动手写了g4f的模块挂载 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

网站模板如何使用 如何修改吗网站视频插件

合并分支用rebase还是merge&#xff1f; 实际开发工作的时候&#xff0c;我们都是在自己的分支开发&#xff0c;然后将自己的分合并到主分支&#xff0c;那合并分支用2种操作&#xff0c;这2种操作有什么区别呢&#xff1f; git上新建一个项目&#xff0c;默认是有master分支…

迁安做网站教育培训机构设计图

Java核心类库篇6——IO 1、File 1.1、构造方法 方法声明功能介绍public File(File parent, String child)从父抽象路径名和子路径名字符串创建新的 File实例public File(String pathname)通过将给定的路径名字符串转换为抽象路径名来创建新的 File实例public File(String pa…

12380网站建设情况报告网站总体规划设计说明

hive分区重命名后&#xff0c;新的分区的分区大小为0 , 例如 alter table entersv.ods_t_test partition(dt2022-11-08) rename to partition(dt2022-11-21) ods_t_test 的2022-11-21分区大小为0。怎样修复 使用 msck repair table 命令来修复表的元数据&#xff0c;让hive重新…

太极 - MKT

太极 环境 下雨 下午 卧室 附上音乐 (沙石头 鱼儿 本身不也是物质的一部分么,都在不同的层次适应存在。 石头在河里打磨成圆滑,在沙漠变成啥子,这么看好像都是被动的过程。 但本质沙子石头都是原子层面的硅原子在…

佛山营销网站旅游网站建设方案后台

0-1背包理论基础 基础 DP数组与其下标的含义 dp[i][j]&#xff0c;i为物品编号&#xff0c;j为背包容量 dp[i][j]表示从下标为[0-i]的物品里任意取&#xff0c;放进容量为j的背包&#xff0c;价值总和最大是多少。 递推公式 分类&#xff1a;是否要放入下标为i的物品&…

网站建设人员职责分布昌吉网站建设咨询电话

一、智能家居与会议系统 智能家居与会议系统分论坛将于3月28日同期举办&#xff01; 智能会议系统它通过先进的技术手段&#xff0c;提高了会议效率&#xff0c;降低了沟通成本&#xff0c;提升了参会者的会议体验。对于现代企业、政府机构和学术界是不可或缺的。在这里&#x…

题解:P12410 「知りたくなかった、失うのなら」

草 -我ら不会と算に时む复なりlink 说在前面 如果你看了这个东西你最好就看个乐子别真的去写,卡常卡死你。 做法什么的请直接看正文。 注意到其他题解给出了很优美的做法,那么我就来点不优美的。 先设几个数字吧,设…

unity面向组合开发二:EC的代码实践

一、ECCore 需要在Unity项目中使用插件:UniRx,通过UniRx代替Mono的Update,Mono下做轮询性能消耗会有点大。 EntityMono代码:using System; using System.Collections.Generic; using EC; using UniRx; using Unity…

《咳咳,未来编程大师,顶尖程序员的第一条博客》

Helloooooo World!本人目前是一个在校大二的学生,正在备战蓝桥杯,希望有相同目标的朋友联系我,我们可以一起备赛,一起刷题。我的目标是在2026蓝桥杯比赛上拿下国一,哈哈哈哈虽然听起来很扯,但是我是会用拿国一的…