大模型赋能的具身智能:自主决策和具身学习技术最新综述

微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
 
具身智能(Embodied AI)被视为通往通用人工智能(AGI)的关键路径,但传统方法在开放、动态环境中仍面临泛化瓶颈。 近两年来,大模型(LLM、LVM、LVLM、MLM、VLA等)的爆发为具身系统带来了新的感知、推理与学习能力。
 
 
主要LLM时间线
电子科大最新综述系统(论文链接在文末)梳理了大模型如何赋能具身智能的两大核心——自主决策与具身学习,并首次将“World Model”纳入统一框架,为研究者提供了全景式路线图。
 
 
添加图片注释,不超过 140 字(可选)
2. 大模型 × 具身智能:整体框架
 
 
Fig-1 论文整体架构
图1:综述章节组织,涵盖分层/端到端决策、具身学习、World Model
 
 
添加图片注释,不超过 140 字(可选)
表1:对比现有综述,本文首次同时覆盖五大维度
3. 自主决策两大范式
3.1 分层决策(Hierarchical Decision-Making)
 
 
Fig-5 分层决策流程
感知 → 高层规划 → 底层执行 → 反馈增强
3.1.1 高层规划:让大模型“写剧本”
 
 
添加图片注释,不超过 140 字(可选)
  • 结构化语言:LLM 生成 PDDL 规划,LLM+P、PDDL-WM 用外部验证器纠错。
  • 自然语言:SayCan、Text2Motion 用 RL 值函数或几何检查器过滤不可行动作。
  • 编程语言:Code-as-Policy、Instruct2Act 将指令直接转为可执行 Python 代码。
3.1.2 底层执行:从 PID 到扩散策略
 
 
添加图片注释,不超过 140 字(可选)
  • 传统 PID/MPC 与 LLM 调用 CLIP、SAM 等视觉 API 结合,实现模块化控制。
  • 最新工作(π₀、Octo)用扩散模型输出连续轨迹,兼顾平滑与精准。
3.1.3 反馈闭环:三种来源
 
 
添加图片注释,不超过 140 字(可选)
  1. Self-Reflection:Re-Prompting、Reflexion 让 LLM 自评自改。
  2. 人类反馈:YAY Robot、IRAP 在线接受语言纠正。
  3. 环境反馈:Inner Monologue、DoReMi 把多模态观测转成自然语言再规划。
3.2 端到端决策:Vision-Language-Action (VLA) 模型
 
 
Fig-9 VLA 端到端框架
图9:VLA 直接映射多模态输入到动作
3.2.1 VLA 的三板斧
 
 
添加图片注释,不超过 140 字(可选)
组件
作用
代表模型
Tokenizer
视觉/语言/状态/动作统一编码
RT-2、OpenVLA
融合模块
Cross-Attention 融合跨模态信息
Octo、Diffusion-VLA
De-Tokenizer
离散或连续动作解码
π₀、TinyVLA
3.2.2 三大增强方向
 
 
添加图片注释,不超过 140 字(可选)
  1. 感知增强:BYO-VLA 运行时去噪、3D-VLA 引入点云。
  2. 轨迹优化:Diffusion-VLA 用扩散头生成平滑轨迹;π₀ 采用流匹配提速。
  3. 成本降低:TinyVLA 知识蒸馏 + 量化,边缘端 30 ms 推理。
3.2.3 主流 VLA 对比
 
 
 
添加图片注释,不超过 140 字(可选)
 
 
添加图片注释,不超过 140 字(可选)
 
表2:主流 VLA 一览(节选)
4. 具身学习:从模仿到强化,大模型全面提效
 
 
Fig-12 具身学习方法论
图12:模仿学习、RL、迁移学习、元学习协同示意图
4.1 模仿学习:扩散 & Transformer 双轮驱动
 
 
添加图片注释,不超过 140 字(可选)
  • 扩散策略:Diffusion Policy、3D-Diffusion 用 U-Net 建模多模态动作分布,抗噪声、长程一致。
  • Transformer 策略:RT-1、ALOHA、Mobile ALOHA 用 Decision Transformer 结构,端到端输出动作序列。
4.2 强化学习:大模型解决两大痛点
 
 
添加图片注释,不超过 140 字(可选)
痛点
大模型解法
代表工作
奖励函数设计难
GPT-4 自动生成密集奖励
Eureka、Text2Reward
策略网络表达弱
扩散/Transformer/LLM 作为策略
Diffusion-QL、GLAM、LaMo
 
 
添加图片注释,不超过 140 字(可选)
5. World Model:决策与学习的新引擎
 
 
添加图片注释,不超过 140 字(可选)
图16:World Model 在决策与学习中的双重角色
5.1 四大设计路线
  1. Latent Space:RSSM → Dreamer 系列,低维潜空间预测。
  2. Transformer:Genie、IRIS 用自注意力建模长程依赖。
  3. Diffusion:UniPi、Sora 直接在像素空间生成未来帧。
  4. JEPA:LeCun 提出非生成式联合嵌入预测架构,强调常识推理。
5.2 两大应用场景
  • 决策:在“脑内”模拟验证动作,降低真实交互成本(UniSim、NeBula)。
  • 学习:提供虚拟交互环境 + 合成数据,提升样本效率(SynthER、SWIM)。
 
 
添加图片注释,不超过 140 字(可选)
 
 
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
 
参考文献链接
https://arxiv.org/pdf/2508.10399Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/908649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ST首批中国产MCU,价格曝光

微信视频号:sph0RgSyDYV47z6快手号:4874645212抖音号:dy0so323fq2w小红书号:95619019828B站1:UID:3546863642871878B站2:UID: 3546955410049087去年十一月底,欧洲芯片大厂意法半导体STMicroelectronics在投资者…

ABC424

ABC424C. New Skill Acquired 多源bfs代码实现 #include <bits/stdc++.h> #define rep(i, n) for (int i = 0; i < (n); ++i)using namespace std;int main() {int n;cin >> n;vector<vector<int…

解决 Windows 无法挂载 HTTP WebDAV(AList,OpenList)的问题

Windows 默认的 WebClient 服务仅支持 HTTPS 协议,而本地搭建的 WebDAV 服务通常基于 HTTP 协议,但是我们有办法将其“修复”。解决 Windows 无法挂载 HTTP WebDAV 的问题 当前市面上大多数网盘都可以挂载到 AList(…

在Ubuntu系统中使用gcc和Makefile编译C程序

一.用Ubuntu系统编写hello world程序并编译运行 1.用vim命令编写hello world程序代码2.用gcc命令编译并运行二.用Ubuntu系统编写主程序文件main1.c和子程序文件sub1.h并编译运行 1.编写子程序sub1.h2.编写主程序main1.…

HN CSP-S 2024 游记

本文中,一 Day 指一段 \(24\) 小时的时间段,从 \(4:00\) 开始计算。S1 Day -1 @湖南省队御用绫厨TM_Sharweek 拉我进了一个群。 熬到了凌晨一点,与 @湖南省队御用绫厨TM_Sharweek 在 QQ 上进行了聊天。 睡着了。 S1…

CSP-S 2025 初赛解析

T1有 5 个红色球和 5 个蓝色球,它们除了颜色之外完全相同。将这 10 个球排成一排,要求任意两个蓝色球都不能相邻,有多少种不同的排列方法? ( )A. 25 B. 30 C. 6 D. 120选 C. 排列组合:不相邻问题先排 \(5\) 个红…

科研牛马碎碎念

写在前面 7年之前,刚进入高中的时候,我开始了写日记,名之“旧梦”。如今再去看里面记录的那些往事,竟真的亦真亦假、亦虚亦实,仿佛不是发生在自己身上的经历,而是做了一场很长又很短的梦,但又确是一些趣事,看来…

9.20 闲话

1有点不开心,没有道理的不开心。 这周运气拉满了,模拟赛打的都还可以,没有出现之前那种联赛模拟会 \(0\) 道题的情况,该过的题都过了。初赛更是撞大运捡了个 \(100\)(虽然 \(60\) 和 \(100\) 没有区别,但上次拿 …

paddleocr 调试

AppData\Local\Programs\Python\Python39\Lib\site-packages\paddleocr 我修改的是这个目录下的源码

芯片组

Intel系列 超频支持 PCIe通道 目标用户Z系列 完整支持 最多 发烧友/游戏玩家B系列 部分支持 中等 主流用户H系列 不支持 基础 办公/入门AMD系列 超频支持 PCIe通道 目标用户 主要特点X系列 完整支持 最多 发烧友/工作站…

18.日志

18.日志 18.1 自带log包在日常项目,在出现问题之后需要排查,一种比较主要的排查方式是通过日志。所以在代码的关键地方,需要打印相应的日志。在Go语言中log包提供了简单的日志功能,其输出格式如下所示:打印 格式化…

testuserjiagou

https://aws.amazon.com/cn/blogs/architecture/disaster-recovery-dr-architecture-on-aws-part-i-strategies-for-recovery-in-the-cloud/

IDEA 自动编译和热部署

测试环境 IDEA2023 一 自动编译菜单 File >> Settings >> Build,Execution,Deployment >> Compiler 勾选上 Build project automatically 二 热加载 1. 设置自动编译后,添加依赖<dependency&g…

testusers3

我们需要为AWS S3创建一个策略,以便允许ALB(Application Load Balancer)将访问日志上传到指定的S3存储桶。 策略需要满足以下条件: 允许ALB服务将日志写入S3存储桶。 只允许对特定存储桶和特定前缀(如果需要)的写…

RabbitMQ核心模型简介,Hello World的生产与消费

本章学习目标理解AMQP模型中的核心概念:Connection, Channel, Producer, Consumer, Queue。创建一个.NET项目并添加RabbitMQ客户端库。使用C#编写代码发送一条消息("Hello World")。使用C#编写代码接收并…

关于oj在创建文件夹失败的原因

由于他是在/home,java所在的身份www,没有权限创建文件夹和文件,其次是没有Docker 权限被拒绝

Linux 基础命令 02

一、查看文件内容及内容处理命令 1.1 vi/vim vi命令 是UNIX操作系统和类UNIX操作系统中最通⽤的全屏幕纯⽂本编辑器。Linux中的vi编辑器叫vim,它是vi的增强版(vi Improved),与vi编辑器完全兼容,⽽且实现了很多增强…

RabbitMQ核心模型简介,Hello World的发送与消费

本文目标理解AMQP模型中的核心概念:Connection, Channel, Producer, Consumer, Queue。创建一个.NET项目并添加RabbitMQ客户端库。使用C#编写代码发送一条消息("Hello World")。使用C#编写代码接收并处理…

Proxy 库解析(三)

ptrs template <class F> struct converter {explicit converter(F f) noexcept : f_(std::move(f)) {}converter(const converter&) = delete;template <class T>operator T() && noexcept(s…

软工个人项目 - Helen

论文查重系统设计与实现 GitHub作业链接: https://github.com/Playerhh/playerhh/tree/main/3223004773这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/这个作业要求在哪里…