经过基于流视频预测的可泛化双手运行基础策略

news/2025/10/7 8:45:30/文章来源:https://www.cnblogs.com/ljbguanli/p/19128174

经过基于流视频预测的可泛化双手运行基础策略

25年5月来自中国电信、西北工业大学和香港科大的论文“Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction”。

由于动作空间巨大且必须协调手臂运动,学习可泛化的双手执行策略对于具身智体而言极具挑战性。现有方式依赖于视觉-语言-动作 (VLA) 模型来获取双手处理策略。然而,从单臂数据集或预训练 VLA 模型迁移知识通常无法有效泛化,这关键是由于双手资料的匮乏以及单臂和双手操作之间的根本差异。本文提出一种双手操作基础策略,通过微调领先的文本-转-视频模型来预测机器人轨迹,并训练一个轻量级的扩散策略来生成动作。鉴于文本-转-视频模型中缺乏具身知识,引入一个两阶段范式,该范式基于预训练的文本-转-视频模型,对独立的文本-转-流和流-转-视频模型进行微调。具体而言,光流作为中间变量,提供图像之间细微运动的简洁表示。文本-转-流模型通过预测光流来具体化语言指令的意图,而光流-转-视频模型则利用光流进行细粒度的视频预测。该办法减轻单阶段文本-转-视频预测中语言的模糊性,并通过避免直接使用低级动作显著降低对机器人数据的需求。在实验中,收集真实双臂机器人的高质量操作数据,仿真和实际实验结果证明途径的有效性。


双手运行对于具身智体至关重要,它能够执行必须双臂精确协调的复杂任务。与单臂操作不同,双手任务需要类似人类的协调能力,这带来了巨大的挑战,源于其动作空间显著扩大,并且需要双臂协调运动。先前的方法利用模拟[1, 2]或小规模现实世界数据[3–6]、人-目标基元[7, 8]以及结合策略迁移的强化学习(RL)[9, 10]来学习双手策略。然而,由于缺乏高质量的双手数据,这些方法的泛化能力往往有限,而模拟与现实之间的差距仍然是基于强化学习的方法面临的重大挑战。这些挑战迫切需要开发一种能够跨任务泛化,同时又能在现实世界中保持适应性和弹性的双手基础策略。

在特定领域机器人数据有限的情况下 [11, 12]。其他研究尝试为所有机器人构建统一的动作空间,从而能够在单臂和双臂资料集以及网络规模的人类数据上进行联合预训练。具体而言,RDT [13] 引入一个物理上可解释的动作空间,其中每个维度都与物理基元保持明确的对应关系,从而促进了跨机器人平台的可迁移性。GROOT 和 GO-1 [14, 15] 采用潜动作嵌入将不同的动作空间投影到共享码本中,从而能够在异构资料上进行大规模预训练。就是最近的方法构建大规模的视觉-语言-动作 (VLA) 模型,以获得可泛化的双手策略。一些方法直接混合跨-具身数据来训练单个网络,而数据混合策略已被证明对下游自适应至关重要,尤其

尽管有这些创新,训练一个用于双手操作的鲁棒 VLA 模型仍然具有挑战性。最初,这些框架需要基于具有统一动作空间的聚合内容集从头开始训练,这会带来巨大的计算开销。其次,即使在统一的动作空间内,双手操作也表现出明显的多模态性,基于它本身就包含许多可能的动作模式 [13],需要全面的数据覆盖。

构建通用的双手 VLA 所面临的挑战引出一个关键问题:使用基础模型构建双手策略,而不直接处理异构动作是否可行?观察表明,尽管双手操作动作复杂,但由此产生的状态轨迹可以通过视频统一表示。因此,建立一个基于语言指令的自然视频和机器人视频的统一建模框架,可以使双手基础模型能够根据指令预测机器人轨迹。幸运的是,现有的文本-转-视频 (T2V) 模型 [16, 17] 已经展现出卓越的生成和指令遵循能力。这些模型捕捉丰富的运动语义,包括人类与物理世界的交互,这对于具身智体建模机器人和物体动力学至关重要。此外,T2V 模型本身就具有时间依赖性,这使得它们非常适合用于马尔可夫决策过程 (MDP) 中的轨迹建模。

本文的 CogRobot,它利用 T2V 模型 CogVideoX [17] 来推导双手基础策略。通过在双手数据集上对 CogVideoX 进行微调,可以调整 T2V 模型,使其能够根据初始观察和语言指令高效地预测机器人未来的轨迹,从而无需像之前的 VLA 模型那样从头开始训练或建模复杂的动作。然后,轻量级的扩散策略会根据预测的视频生成机器人动作。

然而,直接在有限的双手内容上对 CogVideoX 进行微调通常会产生次优的预测。这个归因于该模型缺乏具身领域知识,从而阻碍对机器人和物体运动的精确预测。为了解决这个问题,CogRobot 引入光流作为中间变量,将流程分解为两个模块:文本-到-光流和光流-到-视频,这两个模块均基于 CogVideoX 构建。(i) 与直接预测视频相比,文本-到-光流模块预测的是光流而不是原始视频,专注于对机器人和目标的运动行为和动态交互进行建模,而无需详细说明视频细节。(ii) 然后,光流-到-视频模块从光流中重建详细的视频,借助光流将语言指令置于具体的高级语义中,而无需考虑低级动作。CogRobot 框架减轻语言指令中的歧义性,并显著降低微调的数据要求。因此,CogRobot 凭借中间物理表示有效地将高级指令与低级动作连接起来。


采用两个七自由度 Realman 机械臂和一个外部摄像头构建一个双臂环境,如下图(a)所示。双手处理任务T可以表述为一个目标条件的部分可观马尔可夫决策过程(POMDP),其参数为(S,O,A,P,L),其中S和O分别为状态空间和观测空间。

通过VR设备的遥操作收集专家材料。该设备捕捉人类手部和手腕的姿势,并通过重新瞄准和逆运动学将其转换为机器人关节角度指令,基本遵循OpenTelevision [18]的原理。收集的数据集包含episodic数据,包括观察序列(即视频)v = [o_1,…,o_T]、动作序列[a_1,…,a_T-1]和语言描述l。

在 CogRobot 中,将指令条件下的双手策略 π(a_t:t+N−1|o_t,l) 的训练分解为两个步骤:(i) 给定当前观察 o_t,预测达成指定目标 l 的未来观察轨迹 o_t+1:t+N = o_t+1,…, o_t+N;(ii) 从预测的观察序列 o_t+1:t+N 中推导出可执行的低级动作 a_t:t+N−1。本文 o_t+1:t+N 的预测被表述为视频生成障碍。

最近的 T2V 模型依据在大规模开放域文本视频内容集上进行训练,展现出生成高度逼真视频的强大能力。然而,由于这些数据集中缺乏双手操控数据,此类模型难以泛化到双臂机器人架构以预测其未来行为。对下游任务进行微调是必要的,但也带来两大挑战:(1)双臂系统应该双臂协调动作,这会引入更复杂的动态特性,现有的 T2V 模型难以表示。(2)由于数据收集成本高昂,公开的双臂数据集稀缺。因此,直接对现有的视频扩散模型进行微调往往会导致对手臂运动的预测不准确,无法捕捉机器人与物体的动态相互作用,从而导致双手执行的轨迹不可靠。为了克服这些挑战,提出一个两阶段微调框架,将运动细节明确地集成到视频生成过程中,如图 (b) 所示。利用光流对像素级运动进行编码,并预测反映细粒度运动模式的未来光流序列。这些预测的光流用于指导视频生成过程,使模型能够生成更精确的视频。

请添加图片描述

文本-到-流生成

首先展示当前 T2V 模型在预测双手行为方面的局限性。用 CogVideoX 作为基础模型,并使用两个双臂数据集(RDT [13] 和 RoboMIND [19])评估其零样本泛化能力。然后,在具备这两个数据集的组合数据集上对 CogVideoX 进行微调,以评估其适应双臂系统的能力。
如下图 (a) 所示,当给出初始观察结果并提示“打开盖子并将玉米放入锅中”时,原始 CogVideoX 会生成一只虚假的人手和一颗玉米来遵循指令。它未能将双臂的视觉语义融入初始观察结果中,而是仅仅专注于生成与文本提示一致的帧。因此,它无法规划有效的轨迹。

请添加图片描述

在同一数据集上对具有不同模型大小(2B 和 5B)的两个版本的 CogVideoX 进行微调,并将它们称为 CogVideoX-2B-SFT 和 CogVideoX-5B-SFT。如图(b)-(d) 所示,直接在双手素材集上进行微调会导致性能下降,这是因为高级任务指令会引入语义模糊性。具体来说,这行归因于三个挑战:

(i) 物理幻觉。如图 (b) 所示,即使经过微调,图 (a) 中观察到的幻觉仍然存在——生成的视频用虚构的机械臂替换了人手,但运动仍然违反了物理真实性。这表明 T2V 模型主要针对生成与文本输入在语义上一致的视频进行优化,而没有确保每一帧都遵循物理上合理的过渡。
(ii) 任务混淆。当输入涉及多个阶段的长周期指令时,模型可能无法确定在给定时间执行的正确子任务。如图 © 所示当不同的子任务共享相似的初始观察值时,模型无法推断下一步应该是“取出”还是“关闭”,并且可能错误地触发非预期的子任务。
(iii) 指令模糊。语言指令通常较为高级(例如“放置”),并且缺乏关于如何执行该操作的充分指导。因此,如图 (d) 所示,虽然生成的视频可能看似满足指令,但缺乏精确度会导致激进的运动规划无法在未来的 N 步中执行。该模型可能会生成不合理的关节位置,而这些位置并非基于可行的机器人动力学原理。这些挑战凸显文本描述与现实世界运动之间存在的持续差距,这阻碍模型获取必要知识以预测手臂应如何随时间移动并与目标物体交互的能力。

为此,利用光流作为指导,为模型明确给予运动线索。具体而言,给定一对 RGB 观测值 o_1 和 o_2,光流计算每个像素的位移场 f_1→2,该场将观测值 o_1 中的每个像素位置 p 映射到未来观测值 o_2 中的对应位置 p′ = p + f_1→2§。在双手操作中,两个图像观测值之间的差异主要由机械臂的运动及其与目标物体的相互作用造成。因此,通过对逐像素变化进行建模,光流可以捕捉手臂关节和末端执行器的精细运动细节,以及机器人与物体之间的接触。此功能可以精确监测机械臂的运动行为以及接触面处的动态相互作用。为了增强未来不同时间步长下流量预测的时间一致性,将流量预测过程表述为一个序列建模问题。具体来说,第一阶段的目标是生成一个光流序列 F_0:N = (f_0→1,…,f_0→N),其中每个 f_0→t 表示从初始观测 o_0 到未来观测 o_t 的运动场。

然而,直接预测原始光流会带来新的挑战。由于双通道光流和三通道 RGB 图像之间的模态差异,先前的研究 [20] 需要从头开始训练一个额外的流变分自编码器 (VAE),将模型从 RGB 域迁移到运动矢量域。此种方法依赖于网络规模的训练数据来有效地调整模型的分布,但由于特定领域数据的可用性有限,这对于双手操作任务来说是不切实际的。为了更好地利用预训练模型的先验知识并减少对大规模数据的依赖,将光流转换为流视频格式。具体而言,对于每个光流 f = (u, v),按如下方式计算其幅度和角度:

请添加图片描述

不同的光流方向被映射到从 [21] 中使用的色轮中,选择不同颜色,而光流的大小决定颜色的饱和度。通过迭代地转换序列 F_0:N 中的每个光流,可以生成一个光流视频 v_F = ( v_f_0→1,…,v_f_0→N) ,该视频在消除格式差异的同时,保留了捕捉手臂运动的能力。由于此转换过程基于规则且仅涉及直接计算,因此效率极高,并且与模型训练成本相比,其计算开销极小。

依据这种转换,光流生成任务被重新表述为学习光流视频的分布:v—F ∼ p_θ_f ( v_F | o_0, l )。为了能够在有限的双臂数据集上进行有效训练,采用领先的 T2V 模型 CogVideoX 作为基础模型,并利用其从大规模网络视频中学习到的生成先验知识。在训练过程中,用预训练权重初始化模型,并冻结 VAE,将流视频 vF 编码为潜 z_f_0。然后用逐步添加的噪声 {ε_kf }对该潜在 z_f_0 进行骚动。在每个去噪步骤 k 中,模型接收带噪声的潜 z_fk 并预测相应的噪声 ε_kf。流生成的损失函数定义为:

请添加图片描述

光流-到-视频预测

基于文本-到-光流模型,构建一个光流-到-视频模型,该模型利用光流中嵌入的运动和交互线索来指导视频合成。这些线索能够捕捉难以仅凭文本推断的动态模式。与依赖低级动作输入的现有世界模型相比,光流提供了更高级的语义信息,有助于识别手臂和物体。可视化两个模型的注意图:CogVideoX-5B-SFT 和本文的模型,后者将光流作为引导。从指令中选择特定的单词,并提取相应的交叉注意图,以评估模型是否能够正确解释这些单词并将其转化为相关的低层视觉细节,如图所示,对于与手臂动作相关的单词,纯语言模型无法识别有意义的区域,导致运动基础薄弱。相比之下,本文光流引导模型能够响应预期的运动和相关的目标物体,从而实现指令和视觉输出之间更好的对齐。对于与目标物体相关的词语,模型能够准确地分割相关区域并有效滤除不相关的背景内容,而纯语言模型则会引入更多噪声并突出显示不正确的区域。

请添加图片描述

该模型旨在学习带有附加流引导的机器人轨迹视频的分布:v ∼ p_θ_v (· | o_0, l, v_F)。为了将第一阶段生成的流视频有效地整合到视频生成过程中,沿通道维度连接光流和 RGB 视频。具体而言,在训练期间,流视频 vF 和双臂轨迹视频 v 分别由 VAE 编码以得到相应的潜变量 z_f 和 z_v_0。按照流生成中使用的相同程序,视频潜变量 z_v_0 受到噪声 {εk_v} 的干扰,从而产生 zk_v。随后将这个带噪声的潜信号与流潜信号连接起来形成 z_k = [zk_v, z_f ],并将其输入到模型中。视频生成的训练目标定义为:

请添加图片描述

视频扩散策略

为了能够运用视频预测模型来控制双臂体系,引入一个额外的控制器,用于从预测视频中提取可执行的低级动作。由于视频预测模型的训练目标是生成满足给定任务指令的未来观测值,因此预测视频中的每一帧都可以被视为双臂系统应该达到的目标观测值。因此,训练一个目标达成策略 π(a_0:n|o_0, o_n),其中 o_0 是初始观测值,o_n 是该策略想要建立的期望观测值。采用扩散策略[22]作为该控制器的主干。在训练过程中,随机采样一个目标步骤 n ∼U (1, n_max),并利用噪声 {εk_π} 逐步将相应的动作序列 a_0:n 扰动为 ak_0:n。目标达成策略的训练目标定义为:

请添加图片描述


实验细节。

模拟设置。在 RoboTwin [2] 上评估该方式。RoboTwin 是一个生成式数字孪生框架,可以生成各种专家演示和逼真的交互式场景。RoboTwin 构建一个与现实世界对齐的环境,涵盖常见的机器人操作技能,例如拾取和放置,以及更复杂的双臂协作任务。这能够系统地评估双手策略的性能和泛化能力。

真实世界设置和数据收集。构建一个自然的家具环境,两个机械臂安装在桌子的两侧,前置摄像头用于捕捉手臂运动和场景环境。为了高效地收集双臂任务的数据,使用 Vision Pro 开发一个基于视觉的遥操作系统。它提供了一个直观的控制和收集界面。基于 VR 的框架捕捉 6D 手腕姿势和手指关节位置,并通过两步坐标变换将它们转换为机器人可执行的命令。该变换将 Vision Pro 坐标系与机器人的坐标系对齐,并通过欧拉旋转纠正姿势定义的不一致。手指距离映射到夹持器宽度,从而可以通过手势直观地控制夹持器。

架构细节。文本-到-流和流-到-视频模型均使用预训练的 CogVideoX-2B 模型进行初始化。首先在由两个双手数据集(RDT 和 RoboMIND)组成的组合数据集上对这两个模型进行微调。之后,在下游模拟和真实演示中进一步对其进行微调。所有视频样本均标准化为 256×256 的分辨率和 17 帧的固定长度。对于文本-到-流模型,使用 FlowFormer++ [52] 从每个视频片段中提取真实的光流。

基准。方法与三个基准进行比较:(i)基于单视图的方法:扩散策略(DP)[22]。这是一种条件去噪扩散模型,通过迭代细化样本来生成动作,从而实现稳定的训练和处理艰难的多模态行为。 (二)基于多视图的方法:RDT [13]。这是一个基于扩散的大型双手操作基础模型,具有统一的动作空间和 Transformer 架构。(三)基于 3D 的方法:DP3 [53]。一种 3D 视觉模仿学习方式,在扩散策略中利用基于点云的表示。文本-到-流模型、流-到-视频模型和 RDT 是在混合多任务数据集上训练的,而下游目标条件策略和其他基线模型是在单任务数据集上训练的。对于每个任务,收集 100 个演示。对 RDT 应用默认的 D435 摄像机,对其他单视图基线和该方法使用 L515 摄像机,因为依靠单个图像作为输入更具挑战性,并且需要更丰富的视觉信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/930220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公司网站打不开微博+wordpress

1. 不说负能量的话,会引发自己的负能量 在日常生活中,我们的语言不仅能够影响他人,更能影响我们自己。负能量的话语,如抱怨、批评或消极的自我对话,会潜移默化地影响我们的心态和情绪。为了维持积极的心态&#xff0c…

进程——环境变量及软件地址空间

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

软件开发与网站开发的区别网站落地页如何做

/*java中的集合类 实现了 Connection接口ArrayList这个集合类 java.util.*这个包的类toArray()方法可以返回一个 Object类型的对象数组我们部队 ArratList进行泛型规范那么就会警告 但是还是可以运行的这是因为JDK1.5中引进了泛型,但是你的ArrayList却没有采用&a…

高唐做网站建设的公司小皮怎么创建网站

目录 题目答案运行结果 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组…

自己可做以做网站吗天元建设集团有限公司商票兑付情况

520这一天,也是网络情人节。就在那天,如果没有女朋友的自己,如何假装自己是有朋友的!如何在朋友圈“秀恩爱。女生版:image很有感觉有木有~~男生版:imageimage其实这些都是小意思啦~~这些都是假装自己有女朋…

【HarmonyOS 5】鸿蒙Taro跨端框架 - 教程

【HarmonyOS 5】鸿蒙Taro跨端框架 - 教程2025-10-07 08:31 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block…

遵义祥云平台网站建设中国企业500强排名2021

《童年》是高尔基自传体小说三部曲中的第一部,讲述的是高尔基幼年丧父、母亲改嫁,他跟随日渐破落的小染坊主外公以及外婆生活的童年经历。小说通过一个儿童天真无邪的眼光,向读者生动地展示了19世纪中叶俄罗斯社会底层人民的生活状态&#xf…

学习unigui【37】nginx的反向代理 ,程序中的重新定向

学习unigui【37】nginx的反向代理 ,程序中的重新定向默认port:9077 希望IP:81后访问9077。于是就采用nginx。问题当点击下载文件或浏览文件等时,怎么知道用户是通过81口访问的? UniGUI 没有暴露 RequestHeader(s),…

php空间放多个网站做好的网站如何上线

如果聊起国内的智能机市场,我想大多数人的印象就是疯狂内卷。卷影像、卷屏幕、卷快充、卷性能……客观地说,国内的3C产品还是很有质价比的。不过在没有如此内卷的日本市场,各种小屏手机仍旧是主流。 除了苹果外,日本本土品牌的夏普…

我和宠物做朋友教案小精灵网站iis怎么使用来建设一个网站

https://blog.csdn.net/hanhanwanghaha宝藏女孩 欢迎您的关注! 欢迎关注微信公众号:宝藏女孩的成长日记 如有转载,请注明出处(如不注明,盗者必究) 开头先分享个有趣的哈哈哈 承包了我一天的快乐秧 点击此处…

wordpress建的大型网站吗云适配 网站

刷题 309.最佳买卖股票时机含冷冻期 题目链接 | 文章讲解 | 视频讲解 题目:给定一个整数数组,其中第 i 个元素代表了第 i 天的股票价格 。 设计一个算法计算出最大利润。在满足以下约束条件下,你可以尽可能地完成更多的交易(多…

wordpress手机网站个人网站建设收费标准

一、前言 前面有相关系列文章介绍了ES的基本概念和各种版本SDK的使用,ES现在已升级到8.5版本,有些概念和SDK用法都有很大变化,后续ES相关的文章会以8.3版本为基准介绍一些实际中应用需要掌握的概念以及一些比较实际的例子。 二、映射 ES环…

北京SEO网站优化公司郑州网站推广公司

给你二叉树的根节点 root 和一个整数目标和 targetSum ,找出所有 从根节点到叶子节点 路径总和等于给定目标和的路径。 叶子节点 是指没有子节点的节点。 示例 1: 输入:root [5,4,8,11,null,13,4,7,2,null,null,5,1], targetSum 22 输出&a…

单页面推广网站模版汉语网站建设心得

JL-8集成电路电流继电器 系列型号 JL-8A/11集成电路电流继电器;JL-8B/11集成电路电流继电器; JL-8A/12集成电路电流继电器;JL-8B/12集成电路电流继电器; JL-8A/13集成电路电流继电器;JL-8B/13集成电路电流继电器; JL-8A/21集成电路电流继电器;JL-8B/21集成电路电流继电器; JL-…

关于网站开发的商业计划书四川省建设厅注册中心网站

这是第三部分&#xff08;第一&#xff0c;第二部分&#xff09;&#xff0c;非常有意思的问答&#xff0c;值得仔细琢磨。 这里只是一些和程序员发展&#xff0c;面试&#xff0c;优秀程序员的特点等相关的部分。 有些想法和 MSF 中的原则也很相似 &#xff08;见 <移山之…

解决Docker存储空间不足问题 - 指南

解决Docker存储空间不足问题 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

长沙市做网站的网站图标在哪里做修改

背景 有序列表换行后自动开启下一个标号&#xff0c;让人苦恼。 操作 操作系统换行操作 1. 【Enter】键是硬回车&#xff0c;即段落标记。回车后文字属于下一段落 2. 【shiftEnter】是软回车快捷键。即人工换行符。回车后文字仍属于前一段落&#xff0c;只不过重新换行。 …

深圳高端网站建设公司人工智能培训心得体会

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一.目录和文件的操作 1.cd 命令 切换到d盘 2.目录分为相对路径和绝对路径 3. dir命令 用于显示目录和文件列表 4. md 或 mkdir 创建目录 5. rd 用于删…

如何在网站开发国外大客户怎么做网站注册的网页

IDEA 软件设置Settings页面Settings是对软件本身的一些属性进行配置&#xff0c;例如字体 主题 背景图 插件等。如何打开Settings设置页面Settings设置页面结构详解结构Appearance & Behavior 外观和行为Keymap 快捷键Editor 编辑器设置Plugins 插件Version Control 版本控…

深入解析:C++ 内存泄漏检测器设计

深入解析:C++ 内存泄漏检测器设计2025-10-07 08:11 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !impo…