【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

  • 1 发表时间与团队
  • 2 问题背景和核心思路
  • 3 具体设计
    • 3.1 模型设计(分层推理链)
    • 3.2 数据设计
  • 4 实验
  • 5 结论

1 发表时间与团队

  • 发表时间:2025年4月22日。
  • 团队:Physical Intelligence(由机器人学大牛 Sergey Levine、Chelsea Finn、Karol Hausman 等人领导)。

2 问题背景和核心思路

  • 问题背景:现有的机器人模型(VLA)在受控实验室表现良好,但在复杂的真实家庭环境中面临泛化性差、无法处理长程任务(如 15 分钟的家务)以及无法理解复杂指令的挑战。

  • 核心思路:通过异构任务联合训练(Co-training),将互联网海量常识(Web Data)、跨本体机器人知识(Cross-Embodiment)与目标机器人的移动操作数据结合。通过层次化推理(感知→ \to规划→ \to执行)来实现“开箱即用”的泛化能力。

3 具体设计

3.1 模型设计(分层推理链)

模型在处理每一帧画面时,遵循一套严密的“思维链”预测顺序:

  • 感知层(Bounding Box):首先在画面中圈出相关物体。这利用了 Web 数据中学到的物体常识,为后续操作定位。

  • 规划层(Subtask Labels):预测当前的语义子任务(如“打开微波炉”)。这利用了手动标注的步进式指令知识。

  • 执行层(Action Expert):

    • 双轨道预测:模型同时预测离散 Token(用于对齐语义和加速训练)和连续动作流(通过 Flow Matching 实现)。
    • 冗余输出:同时预测关节角度末端执行器位姿。末端位姿用于跨机型泛化,关节角度用于直接、安全的物理执行。
    • 动作专家:在后训练阶段引入的专用权重,负责将高层指令转化为丝滑的物理轨迹。

3.2 数据设计

  • 离散化统一:所有数据(动作、坐标、文本、检测框)都被转化为 FAST Token,使机器人能像 LLM 处理文本一样处理动作。
    • 数据阶段化:预训练阶段:加入大量 CE(跨本体) 数据,让模型成为“杂家”,理解各种物体的物理交互。
    • 后训练阶段:去掉 CE 数据以减少噪音,专注目标机器人的 MM(移动操作) 数据。加入专家标注的 VI(口头指令),教模型如何“分步骤”拆解长任务。

4 实验

  • 真实世界评测(In-the-wild):大胆地在三个从未见过的私人家庭中进行测试,模型在无需微调的情况下,能持续执行 10-15 分钟的复杂任务。
  • 评估标准(Progress-based):不采用二元成功率,而是根据完成步骤的百分比打分,更客观地衡量模型在长程任务中的鲁棒性。
  • 代表性验证(Mock vs Real):证明了实验室模拟环境(Mock Env)的效果与真实环境(Real Env)具有强相关性,验证了实验结论的可靠性。
  • 环境规模效应:通过控制变量实验证明,即便数据量相同,训练时见过的房子越多(多样性高),模型的泛化能力越强,且 100 个环境仍未达到上限。

5 结论

π 0.5 \pi_{0.5}π0.5证明了:

  • 结构化推理(先找物体、再想步骤、后动手)是解决长程任务的最优解。
  • 异构联合训练能让机器人具备“物理常识”,实现跨场景的零样本泛化。
  • 分阶段训练策略(先泛化、后聚焦)是训练高性能机器人的有效路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179658.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型分布式训练通信优化:从Ring All-Reduce到分层压缩的实战演进

摘要:本文深度揭秘大模型分布式训练中的通信瓶颈与优化体系。通过Ring All-Reduce的拓扑感知改进、梯度压缩算法(PowerSGDEF21)的融合实现、以及通信-计算重叠的流水线设计,在千卡集群上训练175B模型时,通信耗时占比从…

10年了啊

一晃,10年过去了

智能代码重用推荐:提高开发效率

智能代码重用推荐:提高开发效率 关键词:智能代码重用推荐、开发效率、代码检索、代码分析、机器学习 摘要:本文围绕智能代码重用推荐展开,旨在探讨如何通过这一技术提高软件开发效率。首先介绍了智能代码重用推荐的背景信息,包括目的、预期读者、文档结构和相关术语。接着阐…

苏州装修避坑指南:3家自有工人+施工规范宝藏公司揭秘 - 品牌测评鉴赏家

苏州装修避坑指南:3家自有工人+施工规范宝藏公司揭秘一、苏州装修市场乱象频发,避坑刻不容缓 苏州房地产市场的火热带动了装修行业的蓬勃发展,目前大小装修公司多达数百家,涵盖各类规模与类型。但行业门槛偏低,导…

8个降aigc工具推荐!继续教育学员必备避坑指南

8个降aigc工具推荐!继续教育学员必备避坑指南 AI降重工具:论文写作的隐形助手 在继续教育的学习过程中,论文撰写是每位学员必须面对的重要环节。随着人工智能技术的广泛应用,越来越多的学生开始使用AI工具辅助写作,但随…

这些降重服务商整合了AI智能改写技术,免费试用让用户获得高效的文本优化体验。

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

十大降重平台均配备AI智能重写系统,免费试用帮助用户实现高效的文本优化目标。

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

导师推荐!9款AI论文软件测评:研究生开题报告必备工具

导师推荐!9款AI论文软件测评:研究生开题报告必备工具 2026年学术AI写作工具测评:为何值得一看 在当前学术研究日益数字化的背景下,研究生群体面临诸多写作挑战,如开题报告撰写耗时、文献资料整理复杂、格式规范不熟悉等…

CVE-2026-21440 AdonisJS 路径遍历漏洞分析与验证工具

项目标题与描述 CVE-2026-21440 PoC及安全分析 CVE-2026-21440 是一个影响 AdonisJS 框架的严重路径遍历漏洞。该漏洞源于框架在处理多部分文件上传时,不当信任了用户提供的文件名,而未进行严格的净化处理。当开发人员调用 MultipartFile.move() 方法时&…

2026苏州装修公司前十强口碑榜|本土家居博主实测级推荐,装新家不踩坑! - 品牌测评鉴赏家

2026苏州装修公司前十强口碑榜|本土家居博主实测级推荐,装新家不踩坑!一、前言:苏州装修市场 “水多深”?选对公司 = 省一半心力 家人们,作为在苏州家居圈摸爬滚打好些年的博主,我每天在后台收到最多的问题就是…

51单片机智能扫地吸尘智能车机器人红外避障风扇95(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

51单片机智能扫地吸尘智能车机器人红外避障风扇95产品功能描述: 本系统由STC89C52单片机、2路红外避障模块、2路按键、风扇驱动、L298N电机驱动及电池盒供电组成。 1、按下启动按键后,小车左侧的红外避障传感器模块检测到有障碍物,则智能车右…

AI模型与工具技术周报解析

Replicate Intelligence #2 [某中心 Logo]Replicate 正在加入 [某中心] Replicate 标识 ctrlk 探索 定价 企业方案 文档 博客 登录 免费试用 菜单 探索 定价 企业方案 文档 博客 登录 免费试用 在 Playground 中比较模型 (Beta) Replicate 博客 Replicate Intelligence #2 发布…

二分:二分查找、在排序数组中查找元素的第一个和最后一个位置、搜索插入位置、x 的平方根 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

极简风装修不踩坑!3家宝藏装修公司实测推荐,高级感拉满 - 品牌测评鉴赏家

极简风装修不踩坑!3家宝藏装修公司实测推荐,高级感拉满一、开篇:为什么极简风超火,却 90% 的人装成 “廉价毛坯房”? (一)极简风的治愈魔力:当代人的心灵避风港 在这个快节奏、高压力的时代,我们每天穿梭于城…

苏州二手房局部改造不踩坑!6家宝藏装修公司,老房焕新超省心 - 品牌测评鉴赏家

苏州二手房局部改造不踩坑!6家宝藏装修公司,老房焕新超省心一、开篇:苏州老房焕新,局部改造才是性价比之王 (一)为什么苏州二手房更适合局部改造? 走在苏州的大街小巷,随处可见充满历史韵味的老房子。这些二手…

2026毛坯房装修不迷路!这些品牌闭眼选 - 品牌测评鉴赏家

2026毛坯房装修不迷路!这些品牌闭眼选装修前的灵魂拷问 当你满心欢喜拿到毛坯房钥匙,准备大干一场时,是不是瞬间被各种难题砸晕?从何下手?选什么装修风格?怎么把控预算?找施工队还是装修公司?这些问题像紧箍咒…

【工具分享】--编写POC之Wavely的使用

最近面试有时候会被问到是否编写过poc,由于我真正手写的经验其实有点不足所以第一次被问到时候是有点懵逼的,所以有了这篇poc总结(当然啦,这是我回过头又复习了许多篇有关poc的文章并且结合了我自己常用的工具再输出的文章&#x…

【毕业设计】基于python-CNN-pytorch深度学习训练识别T恤的颜色

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

day146—递归—验证二叉搜索树(LeetCode-98)

题目描述给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。有效 二叉搜索树定义如下:节点的左子树只包含 严格小于 当前节点的数。节点的右子树只包含 严格大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例 1&#x…

【ST表】洛谷 P3865 【模板】ST 表 RMQ 问题

View Post【ST表】洛谷 P3865 【模板】ST 表 & RMQ 问题题目 https://www.luogu.com.cn/problem/P3865 题解 ST表(Sparse Table,稀疏表)主要用来解决 RMQ(区间最大/最小值查询)问题。主要应用倍增思想,可以实…