以人类演示视频为提示,学习可泛化的机器人策略 - 指南

news/2025/10/6 21:18:18/文章来源:https://www.cnblogs.com/yxysuanfa/p/19127943

25年5月来自清华大学、上海姚期智研究院和星动纪元(RoboEra)公司的论文“Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt”。

最近的机器人学习方法通​​常依赖于从依据遥管理收集的大量机器人数据集中进行模仿学习。当面对新任务时,此类方法通常应该收集一组新的遥管理资料并微调策略。此外,遥处理数据收集流程也很繁琐且昂贵。相反,人类只需观察他人处理即可高效地学习新任务。本文介绍一种两阶段框架,如图所示。

请添加图片描述

该框架利用人类演示来学习可泛化的机器人策略。此种策略可以直接以人类演示视频为提示,执行新任务,而无需任何新的遥操控内容和模型微调。在第一阶段,训练视频生成模型,该模型使用交叉预测来捕获人类和机器人演示视频数据的联合表示。在第二阶段,使用原型对比损失(prototypical contrastive loss) 将学习的表示与人机共享的动作空间融合。在现实世界灵巧操作任务上的实证评估,证明了该方法的有效性和泛化能力。

传统的机器人学习技巧通​​常基于通过遥操作收集的大型数据集来训练基于语言的策略[1, 2]。虽然这种范式对于已知任务有效,但在处理新任务时面临两个根本限制。首先,语言指令虽然对人类来说直观易懂,但仅提供分类信息,缺乏对物理操作至关重要的丰富空间和时间细节。其次,适应新任务通常需要收集额外的机器人演示,由于遥操作系统的复杂性,这一过程既耗时又昂贵。

相比之下,人类只需观察他人执行任务即可高效地掌握新技能。这一观察结果表明,视觉演示可能为机器人教学提供一种更自然、信息更丰富的媒介。视频不仅可以捕捉要执行的任务,还行捕捉如何执行任务,包括目标关系、运动轨迹和时间安排等关键方面。此外,与机器人内容相比,无论是在实验室环境中捕获还是从现有的在线资源中获取,人类演示视频的获取都更具可扩展性。

目前的方法才刚刚开始探索这个方向。虽然像 EgoMimic[3] 这样的研究已经融入人类演示,但它专注于单任务场景。该领域仍然缺乏一个能够充分利用人类视频潜力进行机器人学习的通用框架。


从人类视频中学习

机器人操控领域的最新进展越来越多地利用人类视频数据来增强灵巧操控和基于抓取器的管理。在灵巧操控方面,[4、5、6] 等研究侧重于多指系统的细粒度控制,而 [7] 则融合 affordance 提示。对于抓取器操控,[8、9、10、11] 等端到端视频调节策略将视觉提示转化为可操控的策略。[12]、[13、14]、[15]、[16]、[3] 和 [17] 等方法使用配对的人机演示资料,通过将人类动作与机器人轨迹关联起来,解决了域差距问题。最近,[18]、[19]、[20] 和 [21] 等生成视频技术利用视频合成和文本提示来生成视觉运动策略。这些研究突显采用人类视频演示、配对数据和生成方法来创建更具适应性、更鲁棒机器人操作策略的日益增长趋势。

视频作为机器人学习的提示

最近的研究[22, 23]越来越多地运用人类演示视频来指导机器人学习。例如,[14]经过使用无监督领域自适应和关键点提取将人类视频转换为以机器人为中心的演示来解除人机具身不匹配的困难。[24]利用对预训练视频嵌入进行调整,将机器人策略实现零样本泛化。类似地,[8]凭借交叉注意机制将人类视频映射到机器人动作,而[25]通过对比学习、模仿和有限自适应来提高样本效率和泛化能力。[11]专注于跨具身技能的发现,以获得可迁移的表征。

用于机器人策略学习的扩散模型

扩散模型在生成式计算机视觉领域 [26, 27] 取得了巨大成功,并因此被应用于机器人策略学习。一些先驱性研究 [28, 29, 30] 展示了其生成去噪机器人动作和捕捉多模态行为分布的能力。诸如 [31] 等扩展性研究展示基于 Transformer 的扩散策略在 Open X-Embodiment 数据集上预训练后,在不同机器人平台上的泛化能力。MDT [32] 和 RDT-1B [33] 等模型使用基于 Transformer 的扩散模型,取代传统的 U-Net。RDT-1B 进一步统一不同机器人的动作表征,并整合了多机器人数据以构建双手操作。

基于扩散的策略可以在高维空间中建模多模态动作分布 [28, 34, 35]。 [36] 通过无监督聚类和内在奖励增强这些模型,以维持多种行为模式;[37] 则添加熵正则化器以增强鲁棒性。


使智体能够从人类演示视频中学习并提取有意义的特征和表征,从而执行特定任务。在第一阶段,用一个视频生成模型,该模型接收人类执行任务的提示视频和机械手的图像。该模型生成机器人执行任务的视频,并通过交叉预测策略嵌入具身迁移信息。在第二阶段,用扩散策略对表征进行微调,并融合人类和机器人数据。统一的动作空间弥合两种模态之间的差距,而基于聚类的损失函数则增强技能分离和多技能模仿性能。在实际任务上的实验证明该框架在提升人机交互和灵活操控方面的有效性。就是本文提出一个两阶段的人类提示学习框架,该框架将机器人素材集与人类演示数据相结合,以应对任务学习中的挑战。其目标

通过交叉预测增强视频生成 (VGCP)

复杂的灵巧手操作。因此,视频生成模型经过训练,包含有关人类操作、物体运动、场景环境和 affordance 的细节。该数据集主要由人类操作视频组成,并辅以机器人夹持器和自行采集的灵巧手视频。虽然夹持器视频与灵巧手操作有所不同,但它们提供了关于物体运动和场景理解的宝贵信息,从而增强了模型的性能。就是视频生成模型的最新进展利用了大量含有物理世界动态先验知识的在线视频数据集。然而,这些模型缺乏与机器人操作相关的信息。为了解决这个问题,用一个专注于机器人和物体操作的自定义数据集对现有模型进行了微调。目标是使智体能够根据人类提示视频执行任务,尤其

交叉预测:为了进一步利用这些数据并提高学习表征的质量,本文提出一种称为交叉预测的办法。如图所示,视频生成模型接收一个视频提示,其中表明源具身执行的任务以及目标具身的初始场景,然后生成目标具身执行任务的视频,从而奏效地迁移具身。例如,给定一段人类抓握杯子的提示视频,该模型会生成一只灵巧的手执行相同动作的视频。

请添加图片描述

在训练期间,选择概率为 P 的交叉预测(使用不同的源具身和目标具身)或概率为 1-P 的正常预测(使用相同的具身)。这种方法将具身迁移信息嵌入到视频生成模型中,进一步提高了学习表征的可迁移性。交叉预测方法以概率 P 随机选择不同的源(s)和目标(t)具身,以概率 1-P 随机选择相同的具身。当两个具身相同时,该过程镜像典型的视频生成模型,即从初始帧生成后续帧。工作目标是让模型学习人机之间的模态迁移,同时保留有关其操作的现有知识。这种方法能够使模型捕捉到具备源具身所使用的技能、被操控的目标以及一些环境背景的视频提示表征。经过微调的模型将在第二阶段的训练中被冻结。

通过人类视频-动作对增强进行技能学习

利用灵巧手数据训练操控策略已成为机器人操控的关键途径。然而,利用遥操作收集此类材料既耗时又昂贵。为了解决这个挑战,利用人手演示来增强操控能力,从而减少对机器手材料的依赖。人手数据的可用性几乎是无限的,视频可以轻松从互联网上获取或自行采集,从而最大限度地减少所需的时间和基础设施。将人手演示与遥操的机器手数据合并成一种兼容的格式,然后运用模仿学习 (IL) 进行联合训练。这构成了第二阶段算法的核心方法。如图所示:

请添加图片描述

建立人体演示数据和机器人运动数据之间的对应关系。鉴于本文只有人类演示的第三人称视角 RGB 视频,而机器人数据包含第三人称视角 RGB 视频和关节状态信息。机器人的末端执行器状态包含两个部分:6D 手腕姿势(手腕位置和手腕方向)和手指关节。采用手部跟踪方法 WiLoR[40] 在视频帧中定位手部并重建 3D 手部网格,该模型每帧输出 21 个关键点。其能够从这 21 个关键点获得手腕 6D 位置。就是人体数据预处理:人体数据处理的目标

对于手腕位置,允许应用相机内参计算人手在相机坐标系中的 3D 位置。为了使其与机器人的基础坐标系对齐,将所有坐标系转换为相机坐标系。为了在人机系统之间建立关节级的对应关系,要求进行手部运动重定向,将人类演示者手部的运动学配置映射到目标机器人机械手上。借鉴 Anyteleop[41] 的经验,将重定向问题转化为一个优化问题。如图所示:跨预测的视频生成例子

请添加图片描述

时间 t 的动作向量。扩散过程在动作空间中运行生成 a^i_t,而其逆过程则依据基于 Transformer 的去噪网络 ε_θ 学习预测和消除噪声。就是表征条件扩散策略:该框架采用一种扩散策略,对条件动作分布 p(a_t|s_t,z) 进行建模,其中:s_t = f_resnet34(o_t) 是由预训练的 ResNet-34 提取的视觉观察特征,z 是第一阶段输出的表征,a_t

对于灵巧手控制任务,将动作空间分解为三个不同的部分:手指关节角度 afinger_t、手腕方向 arot_t 和手腕位置 apos_t。这种分解能够通过去噪网络中独立的预测头对每种动作模式进行专门处理。

原型扩散对比策略 (PDCP)

Siamese 原型对比学习 (SPCL)[38, 39] 首先凭借 K-均值将特征嵌入分组到原型(prototype)中,然后应用Siamese-式的度量损失,将每个原型(prototype)中的嵌入聚集在一起,同时将不同原型中的嵌入分开;同时,应用原型交叉熵损失,将原型分配视为软标签,以增强每个样本与其聚类的亲和力。通过利用学习的聚类结构而非单个实例,SPCL 可以减少假负样本并产生更稳定的正样本集,从而增强自监督学习中的语义辨别能力。

为了使 SPCL 适用于扩散策略训练,在扩散Transformer (DiT) 编码器的输入中添加一个可学习的聚类 token,并将该 token 的编码器输出(记为 h)用作原型-觉察潜向量。在训练过程中,联合优化三个损失函数:
(1) NT-Xent 对比损失函数 L_contra,将具有相同技能的任务视为正样本,将具有不同技能的任务视为负样本(类似于视觉领域的数据增强正样本);
(2) 原型交叉熵损失函数 L_proto,鼓励每个学习的潜向量 h 与其 K-Means 原型标签上的交叉熵分布对齐,从而促进原型内聚更紧密、原型间分离更清晰。
(3) 原型级别的Siamese-式度量损失函数 L_metric,进一步增强度量空间中相同原型样本之间的接近性,同时排斥不同原型样本,从而减少语义混淆。

共同地,这些目标指导网络学习任务判别性、技能-觉察和模态不可知性的表示,从而改善人类和机器人演示之间的跨模态一致性,并最终增强扩散策略的鲁棒性和泛化性。


本文策略完全依赖于来自固定摄像机的第三人称 RGB 图像,并在多任务基准测试上评估办法。与三个基准进行比较:(1)表征+机器人:表示仅启用机器人数据,不使用人类数据。(2)语言+机器人+人类:表示用 CLIP 编码的任务标签(例如“倒水”)替换技能表征作为策略输入。(3)表征+机器人+人类:表示同时利用机器人内容和人类内容。

位置、场景、背景泛化

为了评估策略的泛化能力,在三个关键维度上进行全面的测试。位置泛化:表示在工作空间内随机重新定位目标对象。场景泛化:表示在工作空间内随机更改或替换不可操作的目标。背景泛化:表示在不同背景(桌布等)下进行测试。

为了评估任务执行性能,引入两个指标:成功率 (SR) 和任务得分。二进制 SR 指标(1 表示完全成功,0 表示否则)和子任务指标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929717.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

card

#include <bits/stdc++.h> using namespace std; #define P pair<char, char> #define mp(x, y) make_pair(x, y)vector< P > oper_list; const int len = 4; const int wide = 4; const int _size …

济宁企业网站建设wordpress页面发布不

打开题目 几次尝试&#xff0c;发现输1 1"&#xff0c;页面都会回显NO,Wrong username password&#xff01;&#xff01;&#xff01; 只有输入1&#xff0c;页面报错&#xff0c;说明是单引号的字符型注入 那我们万能密码试试能不能登录 1 or 11 # 成功登录 得到账号…

网站的建设及维护报告闵行做网站公司铝棒易站公司

目录 1.什么是互联网 2.互联网的发展历史 3.中国互联网的发展历程 4.互联网对人们生活的影响 5.互联网给人类带来了哪些负面影响 1.什么是互联网 互联网&#xff08;Internet&#xff09;是一个全球性的计算机网络系统&#xff0c;它连接了数十亿台计算机和其他设备。它是由…

Ai元人文系列:领域协同深耕:构建人机价值共生的文明实践框架

Ai元人文系列:领域协同深耕:构建人机价值共生的文明实践框架 引言:从割裂到共生的文明演进 我们正站在一个历史性的十字路口。数字技术的浪潮以前所未有的力量重塑着人类社会的基本结构,而人工智能的出现更是将这场…

如何监测光伏系统中的电能质量挑战?分布式光伏电能质量解决方案

如何监测光伏系统中的电能质量挑战?分布式光伏电能质量解决方案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "C…

NFL统一数据生态系统技术架构解析

本文深入解析NFL如何通过统一数据生态系统提升运营效率,涵盖数据治理、数据工程、数据解决方案等五大技术支柱,实现从球员安全到球迷互动的全方位数据驱动决策。NFL统一数据生态系统:从球员安全到球迷互动 NFL正在通…

网站开发和运营维护兰州广告设计制作公司

文章目录一、基础准备1. 技术选型2. 源码克隆3. 安装依赖4. 将 RuoYi-Cloud 项目导入到 IDEA5. 安装启动Mysql6. 安装启动Redis7. 创建数据库&#xff0c;执行 SQL脚本文件二、安装与配置 nacos2.1. 下载nacos2.2. 安装 nacos2.3. nacos持久化配置2.4. 执行脚本文件2.5. nacos连…

大型网站后台登录地址一般是如何设置的虚拟主机购买网站

字典是具有指定数字或键的特定数据集或组。在 Python 以外的编程语言中&#xff0c;它们也被称为哈希映射或关联数组。 一般来说&#xff0c;它是键值对的形式&#xff0c;就像现实世界的字典一样。 要创建字典&#xff0c;请从左括号开始&#xff0c;添加键并键入一个冒号。…

网站制作老了株洲网站建设 公司

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号&#xff1a;山青咏芝&#xff08;shanqingyongzhi&#xff09;➤博客园地址&#xff1a;山青咏芝&#xff08;https://www.cnblogs.com/strengthen/&#xff09;➤GitHub地址&a…

专业网站开发软件做一个网站的总结

responseBody注解的作用是将controller的方法返回的对象通过适当的转换器转换为指定的格式之后&#xff0c;写入到response对象的body区&#xff0c;通常用来返回JSON数据或者是XML数据&#xff0c;需要注意的呢&#xff0c;在使用此注解之后不会再走视图处理器&#xff0c;而是…

爱站网长尾词挖掘工具建站网址导航hao123

&#x1f4a2;欢迎来到张胤尘的开源技术站 &#x1f4a5;开源如江河&#xff0c;汇聚众志成。代码似星辰&#xff0c;照亮行征程。开源精神长&#xff0c;传承永不忘。携手共前行&#xff0c;未来更辉煌&#x1f4a5; 文章目录 通道通道声明初始化缓冲机制无缓冲通道代码示例 带…

建构网站婚礼网站有哪些

9月16日消息&#xff0c;锦欣生殖近日宣布已完成新一轮的战略投资&#xff0c;本轮融资由原战略股东华平投资及新引入的中信银行旗下信银投资领投&#xff0c;红杉资本中国基金、药明康德等跟投。完成本轮融资后&#xff0c;华平投资及信银投资分别成为锦欣生殖的第二及第三大股…

深入解析:【C++项目】负载均衡在线OJ系统-1

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网站制作中文版wordpress放广告

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 成全责编 | 阿秃转自 | 美团技术团队企业博客前言mpvue是一款使用Vue.js开发微信小程序的前端框架。使用此框架&#xff0c;开发者将得到完整的 Vue.js 开发体验&#xff0c;同时为H5和小程序提供了代码复用的能力。如果想将…

实用指南:SCDN如何同时保障网站加速与DDoS防御?

实用指南:SCDN如何同时保障网站加速与DDoS防御?pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas",…

二分查找模板:基础二分与进阶二分

二分查找模板:基础二分与进阶二分 本人在学习到 @灵茶山艾府 的二分查找专题时,收获颇多,故借助大模型记录一些学习心得。 根据目标不同,二分查找可以分为 基础二分(情况1:查找任意一个目标值)和 进阶二分(查找…

【设计模式-4.5】行为型——迭代器模式 - 教程

【设计模式-4.5】行为型——迭代器模式 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &q…

阿里云centos7做网站免费psd模板网站

win7输入密码界面背景怎么更改?win7开机的登录密码界面想要换张图不晓得如何改&#xff0c;下面是小编介绍win7登录界面换背景的技巧&#xff0c;有需要的小伙伴一起来下文看看吧&#xff0c;希望可以帮助到大家! win7输入密码界面背景怎么更改 按windowss键R键打开运行&…

运动鞋建设网站前的市场分析企业免费oa管理系统

系统架构 Flink运行时架构Standalone会话模式为例 1&#xff09;作业管理器&#xff08;JobManager&#xff09; JobManager 是一个 Flink 集群中任务管理和调度的核心&#xff0c;是控制应用执行的主进程。每个应用都应该被唯一的 JobManager 所控制执行。 JobManger 又包含…