【论文自动阅读】

快速了解部分

基础信息(英文):

1.题目: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
2.时间: 2025.09
3.机构: Shanghai AI Lab
4.3个英文关键词: Vision-Language-Action (VLA), Real-World Reinforcement Learning (RL), Dense Reward

1句话通俗总结本文干了什么事情

本文提出了一种名为VLAC的模型,它能让机器人通过“看”和“理解”任务描述来给自己打分(奖励),从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作,而不需要人类为每个任务单独设计打分规则。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 奖励函数稀疏且手工设计困难:真实世界强化学习通常依赖稀疏的最终成功/失败信号,或者需要为每个特定任务手工设计复杂的奖励函数(Reward Shaping),这既昂贵又缺乏通用性。
  2. 探索效率低与泛化能力弱:现有的VLA模型主要依赖模仿学习,难以处理未见过的任务或环境变化;而现有的奖励模型往往无法很好地泛化到新任务,且难以区分失败或停滞的轨迹。
  3. 缺乏统一架构:现有的方法通常将“策略”(决定怎么做)和“批评家”(评价做得怎么样)分开,导致集成困难。

核心方法:关键技术、模型或研究设计(简要)

提出了VLAC (Vision-Language-Action-Critic)模型:

  1. 统一模型:基于InternVL构建,同一个模型既负责生成动作(Actor),也负责评估任务进度给出奖励(Critic)。
  2. 成对进度理解(Pair-wise Progress Understanding):模型接收两张图片(前后状态)和语言指令,输出一个进度差值(Delta)作为密集奖励信号。
  3. 真实世界RL框架:结合PPO算法,利用VLAC提供的密集奖励进行策略优化,并引入分级的人机交互机制(如离线演示回放)来加速学习。

深入了解部分

相比前人创新在哪里

  1. 一体化设计:首次在一个自回归架构中统一了VLA策略和进度批评家,无需针对不同任务设计特定的奖励模型。
  2. 强大的泛化能力:通过大规模异构数据(包含人类视频和机器人数据)训练,实现了零样本(Zero-shot)和上下文学习(In-context learning)能力,能直接迁移到未见过的任务和环境中。
  3. 密集内在奖励:利用成对图像对比生成密集的进度奖励,解决了真实世界中缺乏传感器反馈和奖励稀疏的问题。

解决方法/算法的通俗解释

想象一个学开车的机器人,通常需要教练(奖励函数)时刻打分。VLAC模型相当于给机器人装了一个“懂任务的AI教练”。

  • 怎么看:AI教练同时看两张照片,一张是机器人操作前的样子,一张是操作后的样子。
  • 怎么评:AI教练结合“把碗拿起来”这个指令,判断第二张照片是不是比第一张更接近目标。如果是,就给正分(奖励);如果是乱动,就给负分(惩罚)。
  • 怎么做:机器人根据这个分数不断调整动作,分数越高动作越好,直到学会任务。

解决方法的具体做法

  1. 数据构建
    • 将视频切分为成对的图像帧(Pair-wise),计算时间差作为进度标签。
    • 混合了大规模人类视频数据(Ego4D等)、公开机器人数据(Bridge, Droid等)和VQA数据。
    • 构造了负样本(如倒退的动作、语义不匹配的描述)来增强模型对失败的识别。
  2. 模型训练
    • Critic部分:训练模型预测两帧图像间的进度差值(Delta Progress)和任务完成标志(Done Signal)。
    • Actor部分:训练模型输出具体的机械臂控制指令(Delta Pose)。
  3. RL部署
    • 在真实环境中,VLAC模型交替生成奖励和动作。
    • 使用PPO算法更新策略。
    • 引入“人机回路”:包括离线演示回放、人工重置到难点位置探索(Return and Explore)、人工引导探索(Human Guided Explore)。

基于前人的哪些方法

  1. 基础模型:基于InternVL(一个先进的视觉语言模型)进行构建。
  2. RL算法:采用了PPO (Proximal Policy Optimization)算法进行策略优化。
  3. 奖励机制:借鉴了时间对比学习(Time-Contrastive)的思想,通过成对样本学习进度。

实验设置、数据、评估方式、结论

  • 数据:混合了4000+小时的人类数据、1200小时的公开机器人数据和自采数据。
  • 设置:在4个真实世界的操作任务中测试(舀米转移、铺 mats、端碗放置、桌面清扫),使用AGILE PiPER机械臂。
  • 评估
    • Critic:使用VOC(Value-Order Correlation)评估预测进度与实际时间顺序的相关性。
    • Actor:使用任务成功率(Success Rate)。
  • 结论
    • VLAC在未见过的任务上表现出强泛化能力(One-shot)。
    • 在真实世界RL中,成功率从基线的约30%提升至90%(200个回合内)。
    • 引入人工干预后,样本效率提高50%,最终可达到100%成功率。

提到的同类工作

  • RT-1 / RT-2(Brohan et al.): 谷歌的机器人Transformer模型,通常依赖模仿学习。
  • OpenVLA(Kim et al.): 开源的VLA模型。
  • VIP / GVL(Ma et al.): 基于视觉表示学习的奖励方法(如对比学习)。
  • ReBoot / SERL(Hu et al., Luo et al.): 强调样本效率和人机回路的机器人RL框架。

和本文相关性最高的3个文献

  1. InternVL(被作为基础模型架构,是本文模型的根基)。
  2. VIP (Value-Implicit Pre-training)(Ma et al.): 本文在评估部分多次对比了此类基于视觉表示学习的奖励模型,作为主要的竞争或参考基准。
  3. SERL / ReBoot(Luo et al., Hu et al.): 本文在“人机回路”和“真实世界RL框架”设计上参考了这些工作,特别是关于如何利用人类干预加速学习的部分。

我的

主要核心点是把critic集成到一个模型,而且GT label是自动的,Reward不是人工打标签。是按照任务进度来,给2帧,如果正向进展那就是Reward,如果反向了,那就是惩罚。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190947.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

房间大小的粒子加速器实现商业化应用

粒子加速器通常是巨大的结构——比如位于加利福尼亚州斯坦福的SLAC国家加速器实验室长达3.2公里。但科学家们一直在努力通过使用激光来执行加速过程,从而缩小这些加速器的体积。这些粒子加速器将只有一个房间大小,成本也会大大降低。现在,一家…

AI Agent在智能牙刷中的刷牙效果分析

AI Agent在智能牙刷中的刷牙效果分析 关键词:AI Agent、智能牙刷、刷牙效果分析、机器学习、传感器数据 摘要:本文深入探讨了AI Agent在智能牙刷中对刷牙效果进行分析的相关技术和应用。首先介绍了研究的背景、目的、预期读者以及文档结构等内容。接着详细阐述了AI Agent、智…

Agent数据大脑:七层智能体架构解析

以智能体为核心的数据应用架构:从被动管道到主动大脑的范式革命在数据技术飞速迭代的今天,我们正见证一场深刻的范式变迁。传统的数据架构,如以数据管道为核心的Lambda架构、数据仓库与数据湖,正逐渐显露出其局限性。它们更像一个…

SSM275的咖啡馆管理系统

目录SSM275咖啡馆管理系统摘要开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!SSM275咖啡馆管理系统摘要 SSM275咖啡馆管理系统是一款基于SSM框架(SpringSpring MVCMyBatis)开发的智能化管理平台&#x…

大数据毕设项目推荐-基于python的灾情数据可视化系统基于python大数据的自然灾害地震等数据可视化分析系统【附源码+文档,调试定制服务】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

Selenium Web 自动化测试脚本总结

Selenium Web 自动化测试脚本总结 Web 自动化的本质,是模拟人在浏览器里的操作行为:打开浏览器、访问页面、定位元素、输入/点击、做断言验证。Selenium 之所以常用,是因为它把这些动作抽象成了一套稳定的 API,再配合浏览器驱动&a…

SSM276抗疫医疗用品销售系统

目录SSM276抗疫医疗用品销售系统摘要开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!SSM276抗疫医疗用品销售系统摘要 抗疫医疗用品销售系统是基于SSM(SpringSpring MVCMyBatis)框架开发的B2C电子商务平…

Selenium中隐式等待(Implicit Wait)和显式等待(Explicit Wait)的区别

Selenium中隐式等待(Implicit Wait)和显式等待(Explicit Wait)的区别1)本质区别:它们“等的对象”不一样 隐式等待等的是:**元素查找(findElement / findElements)**这件…

大数据毕设项目推荐-基于django的直播带货商品数据分析可视化系统基于django大数据在直播带货商品选品中的应用【附源码+文档,调试定制服务】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

SSM277课程在线考试组卷管理系统vue

目录SSM277课程在线考试组卷管理系统Vue摘要开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!SSM277课程在线考试组卷管理系统Vue摘要 该系统基于SSM(SpringSpringMVCMyBatis)框架与Vue.js前端技术构建&a…

macOS部署docker容器的坑点

在macOS上,Docker的 --network host 模式与Linux不同,容器并不真正共享主机网络栈。需要使用端口映射来让PostgreSQL可以从主机访问。

SSM280的课程智能组卷考试系统vue

目录SSM280课程智能组卷考试系统(Vue版)摘要开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!SSM280课程智能组卷考试系统(Vue版)摘要 SSM280课程智能组卷考试系统是基于SpringSpr…

大数据毕设项目:基于django大数据在直播带货商品选品中的应用(源码+文档,讲解、调试运行,定制等)

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

SSM281的垃圾分类系统vue商城,礼品,考试

目录 SSM281垃圾分类系统概述核心功能模块技术实现亮点 开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! SSM281垃圾分类系统概述 SSM281垃圾分类系统是基于SSM(SpringSpringMVCMyBatis)框架与Vue.js前端…

智能体部署架构:突破性能极限的关键!

AI Agent 的部署架构没有万能解法,选择对了能事半功倍,选择错了则可能付出高昂的性能或成本代价。不同架构会直接影响性能表现、成本结构、延迟体验和适用场景。目前主流的四种部署模式包括批量部署、流式部署、实时部署和边缘部署。1.批量部署Agent 以定…

大数据毕设选题推荐:基于python大数据的国内自然地震数据可视化分析系统基于python的灾情数据可视化系统【附源码、mysql、文档、调试+代码讲解+全bao等】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

【毕业设计】基于django大数据在直播带货商品选品中的应用(源码+文档+远程调试,全bao定制等)

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

计算机大数据毕设实战-基于python的洪涝灾情数据可视化系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

【课程设计/毕业设计】基于django大数据在直播带货商品选品中的应用直播带货商品数据分析可视化系统【附源码、数据库、万字文档】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

大数据领域内存计算:构建实时数据处理的高效平台

大数据领域内存计算:构建实时数据处理的高效平台 关键词:内存计算、实时数据处理、分布式存储、低延迟、大数据平台 摘要:在电商大促的实时销量看板、金融交易的毫秒级反欺诈、物联网设备的实时监控中,“实时"二字正成为大数据价值的核心。传统依赖磁盘的计算方式因高…