论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 论文
通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。
在这里插入图片描述
在这里插入图片描述
高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”)。低层推理(low-level) 基于当前观测和子任务生成具体动作序列。低级推理动作能够受益于其他机器人收集的数据;高级推理能从网络上的语义示例,高级注释预测中受益。

  • 输入:多摄像头图像、语言指令、机器人本体状态(关节位姿)。
  • 输出:高层语义子任务(文本 token)和底层动作序列(连续向量)。
  • 模态交互:图像通过视觉编码器嵌入,文本和动作通过独立编码器处理,通过双向注意力机制(不同于 LLM 的因果注意力)交互。
  • 动作专家(Action Expert:专用于 flow matching 的小型 Transformer,生成高精度连续动作。
  • 注意力掩码:限制动作 token 与文本/图像 token 的单向信息流,避免信息泄露。
    在这里插入图片描述

模型的核心分布为 π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ(at:t+H,^ot,) 其中 ℓ \ell 是整体任务提示, ℓ ^ \hat{\ell} ^ 是各个子任务的提示。
将联合分布拆解为高层次和低层次两个子任务:
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ(at:t+H,^ot,)=πθ(at:t+H ot,^)πθ(^ot,)
动作的 token 采用 π 0 − f a s t \pi_0-fast π0fast 的 token,但这种离散化表示不适合实时推理,因为需要昂贵的自回归解码推理,故而提出了一个结合 FAST 分词器和迭代整合流场来预测动作:
min ⁡ θ E D , τ , ω [ H ( x 1 : M , f θ l ( o t , l ) ) ⏟ 文本token交叉熵损失 + α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , l ) ∥ 2 ⏟ 流匹配MSE损失 ] \min_{\theta}\mathbb{E}_{D,\tau,\omega}\left[\underbrace{\mathcal{H}(x_{1:M},f_{\theta}^{l}(o_{t},l))}_{\text{文本token交叉熵损失}}+\alpha\underbrace{\|\omega-a_{t:t+H}-f_{\theta}^{a}(a_{t:t+H}^{\tau,\omega},o_{t},l)\|^{2}}_{\text{流匹配MSE损失}}\right] θminED,τ,ω 文本token交叉熵损失 H(x1:M,fθl(ot,l))+α流匹配MSE损失 ωat:t+Hfθa(at:t+Hτ,ω,ot,l)2
阶段一:预训练(VLM模式)

  • 仅使用文本token损失(α=0)
  • 将动作视为特殊文本 token(FAST编码),继承语言模型强语义能力
  • 采用 <control mode> joint/end effector 区分末端执行器和关节
  • 各数据集动作维度单独归一化至 [-1,1](采用1%与99%分位数)
数据类型符号数据量关键特性作用
移动机械臂家庭数据MM400小时100+真实家庭环境,清洁/整理任务(图7)目标场景直接适配
多环境静态机械臂数据ME跨200+家庭轻量化单/双机械臂,安装于固定平台增强物体操作多样性
跨本体实验室数据CE含OXE数据集桌面任务(叠衣/餐具收纳等)+移动/固定基座机器人迁移无关场景技能(如咖啡研磨)
高层子任务标注数据HL全数据集标注人工标注原子子任务(如"拾取枕头")+关联定位框实现分层推理能力
多模态网络数据WD百万级样本图像描述(COCO)、问答(VQAv2)、室内场景物体检测(扩展标注)注入语义先验知识

阶段二:微调(混合模式

  • 引入动作专家分支,逐步提升α
  • 流匹配分支从文本 token 条件生成动作,建立语言-动作关联

推理流程

  1. 自回归解码:生成语义子任务 ℓ ^ \hat{\ell} ^(如“拿起盘子”)
  2. 条件去噪:基于 ℓ ^ \hat{\ell} ^ 执行10步流匹配去噪,输出连续动作 a t : t + H a_{t:t+H} at:t+H

实验结果

Q1: π 0.5 \pi_{0.5} π0.5 能否有效泛化到全新环境中的复杂多阶段任务?
在三个未曾见过的真实环境中,使用两种类型的机器人,每个机器人被指示执行卧室和厨房的清洁任务。比较了大致对应于每个任务成功完成的步骤百分比。
在这里插入图片描述
A!: 能够在各种家庭任务中持续取得成功。泛化水平超过了以往的 VLA 模型。

Q2: π 0.5 \pi_{0.5} π0.5 泛化能力随训练数据中不同环境的数量如何变化?
在这里插入图片描述
在这里插入图片描述
A2:随着训练位置的增加,任务之间的平均表现通常会有所提高。随着训练数据中地点数量的增加,语言跟随表现和成功率都有所提高。

Q3: π 0.5 \pi_{0.5} π0.5 各个共同训练成分对最终性能的贡献如何?
在这里插入图片描述
在这里插入图片描述
A3: π 0.5 \pi_{0.5} π0.5 从跨刚体(ME和CE)转移中获得了相当大的好处。移除网络数据(WD)会导致模型在处理异常分布(OOD)对象时表现显著变差。

Q4: π 0.5 \pi_{0.5} π0.5 π 0 V L A \pi_0 VLA π0VLA 相比?
在这里插入图片描述
A4: π 0.5 \pi_{0.5} π0.5 显著优于 π 0 \pi_0 π0 以及增强版本 p i 0 − pi_0- pi0-FAST+FLOW。 π 0 \pi_0 π0-FAST+FLOW 是按照混合训练设置的,但仅用包含机器人动作的数据进行训练,因此无法执行高层次推理。

Q5: π 0.5 \pi_{0.5} π0.5 的高层推理组件有多重要?与单一的低层次推理以及显式的高层基线相比如何?
在这里插入图片描述

不足之处

  • π 0.5 \pi_{0.5} π0.5 虽然展示了广泛的泛化能力,但在某些环境中仍存在挑战,如不熟悉的抽屉把手或机器人难以打开的橱柜。
  • 一些行为在部分可观测性方面存在挑战,比如:机器人手臂遮挡了应该擦拭的溢出物。
  • 在某些情况下,高层子任务推理容易分心,比如:在收拾物品时多次关闭和打开抽屉。
    目前仅能处理的是相对简单的提示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录搭建自己应用中心

记录搭建自己应用中心 应用架构主应用-管理中心系统文件系统子应用 日志系统日志系统前端日志系统后端 用户系统接入使用暂未完成 研发管理需求面板消息推送任务分配应用发布 应用架构 一直想做个试试&#xff0c;这是一个简易版的&#xff0c;主要是整合下知识的&#xff0c;…

【网工第6版】第5章 网络互联⑦

目录 ▲ 路由协议OSPF ◎ OSPF简介 ◎ OSPF特点 本章重要程度&#xff1a;☆☆☆☆☆ ▲ 路由协议OSPF ◎ OSPF简介 OSPF(Open Shortest Path First,开放式最短路径优先协议)是目前应用最广泛的路由协议。 OSPF是一种内部网关协议IGP&#xff0c;也是链路状态路由协议&am…

5.3 Dify:低代码平台,适用于企业快速部署合规AI应用

Dify作为一款开源低代码平台&#xff0c;已成为企业快速构建和部署合规AI应用的首选工具。Dify通过整合后端即服务&#xff08;Backend-as-a-Service, BaaS&#xff09;、大型语言模型操作&#xff08;LLMOps&#xff09;以及直观的视觉化界面&#xff0c;显著降低了AI应用开发…

AI 编程工具:Augment Code

Meet Augment Agent: Your AI pair programmer that deeply understands your codebase, and learns as you work Augment 是开发人员AI平台&#xff0c;它可以帮助您理解代码、调试问题&#xff0c;并更快地发布&#xff0c;因为它了解您的代码库。使用聊天、Next Edit和Augme…

vc++ 如何调用poco库

1. 下载并安装 Poco 库 你可以从 Poco 的官方网站&#xff08;POCO C Libraries - Simplify C Development &#xff09;下载其源代码压缩包。下载完成后&#xff0c;按照下面的步骤进行编译和安装&#xff1a; 解压源代码&#xff1a;把下载的压缩包解压到指定目录。配置编译…

浅谈OpenAIClaude LLM Tools的额外配置

前言 https://platform.openai.com/docs/guides/function-calling?api-modechat&strict-modedisabled#additional-configurationshttps://docs.anthropic.com/en/docs/build-with-claude/tool-use/overview#forcing-tool-use tool_choice “none” 就是不用tools&#x…

SystemWeaver详解:从入门到精通的深度实战指南

SystemWeaver详解&#xff1a;从入门到精通的深度实战指南 文章目录 SystemWeaver详解&#xff1a;从入门到精通的深度实战指南一、SystemWeaver环境搭建与基础配置1.1 多平台安装全流程 二、新手必学的十大核心操作2.1 项目创建全流程2.2 建模工具箱深度解析 三、需求工程与系…

力扣DAY68 | 热100 | 寻找两个正序数组的中位数

前言 困难 ○ 这题搞了3天实在太难了&#xff0c;本质就是每次排除k/2个数&#xff0c;直到找到第k个数。 题目 给定两个大小分别为 m 和 n 的正序&#xff08;从小到大&#xff09;数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。 算法的时间复杂度应该为…

Linux常见故障:排查思路与错误分析指南

引言 当Linux系统"生病"时&#xff0c;它不会说话但却会通过各种症状"求救"&#x1f198;&#xff01;本文将带你建立系统化的故障排查思维&#xff0c;从磁盘到内存&#xff0c;从网络到服务&#xff0c;全方位掌握Linux系统的"把脉问诊"技巧。…

深度解析:从12306看混合云架构下的高并发系统设计

作为曾参与12306余票查询系统高并发升级的技术从业者&#xff0c;笔者注意到公众对于12306底层技术常存在认知盲区。为破解这一迷思&#xff0c;特此分享十年前的架构解密文献&#xff08;该技术之前名叫 gemfire 现已晋升为Apache顶级项目Geode&#xff0c;代码库详见&#xf…

华为Pura X的智控键:让折叠机体验更上一层楼的设计

还记得Mate 70系列刚出那会&#xff0c;我体验了下智控键&#xff0c;那时候就觉得这个“把快捷方式做进电源键”的交互方式非常惊艳&#xff0c;没想到在Pura X上&#xff0c;这种便捷体验感更上了一层楼。 智控键&#xff1a;折叠屏手机的天选快捷方式&#xff1f; 传统折叠…

springboot如何管理多数据源?

静态多数据源管理 配置多个数据源 :创建多个数据源的配置类,通常使用 @ConfigurationProperties 注解来绑定配置文件中的数据源属性,并通过 @Bean 注解定义多个 DataSource Bean 。例如: 配置类: @Configuration public class DataSourceConfig {@Bean(name = "prima…

谷歌终止新冠疫情时期结构化数据支持:SEO影响与应对策略

2025年4月&#xff0c;谷歌悄然宣布将于7月31日起停止支持新冠疫情时期的“特殊公告”&#xff08;SpecialAnnouncement&#xff09;结构化数据。这一举措标志着谷歌正式结束一项在疫情期间推出的实验性功能&#xff0c;对依赖该结构化数据的网站管理员和SEO从业者来说&#xf…

常见游戏引擎介绍与对比

Unreal Engine (UE4/UE5) 主语言&#xff1a;C Unreal Engine 主要使用 C 作为开发语言。C 提供了高性能的底层控制&#xff0c;适用于需要精细调优的 AAA 级游戏。C 在 Unreal 中用于开发核心游戏逻辑、物理引擎等性能要求较高的部分。 脚本语言&#xff1a;蓝图&#xff08;B…

【C++】继承----下篇

文章目录 前言一、实现一个不能继承的类二、友元与继承三、继承与静态成员四、多继承以及菱形继承问题1.继承模型&#xff1a;2.菱形继承的问题3.虚拟继承解决数据冗余和二义性的原理4.虚拟继承的原理 五、继承的总结和反思1.继承和组合 总结 前言 各位好呀!今天呢我们接着讲继…

洛谷 B3647:【模板】Floyd 算法

【题目来源】 https://www.luogu.com.cn/problem/B3647 【题目描述】 给出一张由 n 个点 m 条边组成的无向图。 求出所有点对 (i,j) 之间的最短路径。 【输入格式】 第一行为两个整数 n&#xff0c;m&#xff0c;分别代表点的个数和边的条数。 接下来 m 行&#xff0c;每行三…

netlist

在电子设计自动化&#xff08;EDA&#xff09;中&#xff0c;网表&#xff08;Netlist&#xff09; 是描述电路设计连接关系的核心数据结构&#xff0c;本质上是电路元件&#xff08;如逻辑门、晶体管、模块&#xff09;及其互连关系的 文本化或结构化表示。它是从抽象设计&…

Cadence学习笔记之---原理图设计基本操作

目录 01 | 引 言 02 | 环境描述 03 | 原理图工具介绍 04 | 原理图设计基本操作 05 | 生成页间引用 06 | 元件自动编号 07 | 结 尾 01 | 引 言 书接上回&#xff0c;在前文中讲述了怎样制作常用的库元件&#xff0c;如电阻、二极管&#xff0c;IC器件&#xff0c;以及怎…

【华为HCIP | 华为数通工程师】821—多选解析—第十七页

多选835、IS-IS协议所使用的NSAP地址主要由哪几个部分构成? A、AREA ID B、SEL C、DSCp D、SYSTEM ID 解析:NSAP地址:网络服务访问点(Network Service Access Point)是 OSI 协议中用于定位资源的地址。NSAP 的地址结构如图所示,它由 IDP(Initial Domain …

Linux系统中命令设定临时IP

1.查看ip ---ifconfig 进入指定的网络接口 ifconfig ens160 建立服务器临时IP ifconfig ens160 ip地址 network 系统进行重启后&#xff0c;临时IP将会消失 ip address add ip地址 dev 服务器 ---添加临时ip ip address delete ip地址 dev 服务器 ---删除临时ip 设置ip&a…