ForceMimic:以力为中心的模仿学习,采用力运动捕捉系统进行接触丰富的操作

25年3月来自上海交大卢策吾教授团队的论文“ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation”。

在大多数接触丰富的操作任务中,人类会将随时间变化的力施加到目标物体上,以补偿视觉引导手部轨迹的不准确性。然而,目前的机器人学习算法主要侧重于基于轨迹的策略,对学习与力相关的技能关注有限。为了解决这一限制,本文提出 ForceMimic,一种以力为中心的机器人学习系统,可提供自然、力-觉察且无需机器人的机器人演示收集系统,以及混合力-运动模仿学习算法,用于稳健的接触丰富操作。所提出的 ForceCapture 系统,其中操作员可以在 5 分钟内剥好西葫芦,而力反馈遥操作则需要 13 分钟以上的时间,并且很难完成任务。利用收集的数据,用提出的 HybridIL 来训练以力为中心的模仿学习模型,该模型配备混合力-位置控制原语,以拟合机器人执行期间预测的扳手位置参数。实验表明,该方法使模型能够在接触丰富的蔬菜剥皮任务下学习更为稳健的策略,与最先进的纯基于视觉模仿学习相比,成功率提高 54.5%。

人类可以利用力-感知、精细的肌肉力控制来实现更好的操作,从抓握[1]、举起[2]到剥皮[3]。力的利用可以检测和纠正基于视觉运动规划带来的错误。受这些神经科学成果的启发,大家开始探索力在机器人学习中的效用。然而,以力为中心的操作演示数据很难收集。互联网上有大量人体视频,但没有记录交互力数据。遥操作[4]是一种流行的数据收集方法,使操作员能够远程控制机器人完成操作任务。特别是,力反馈遥操作展示一条以力为中心的数据收集潜途径。但它不能给操作员自然的操作体验,不利于流畅的动作执行和精确的力控制。最近,便携式手持设备[5,6]使野外学习成为可能。他们利用SLAM跟踪摄像头、记录人手或手持夹持器的姿势轨迹。除了无需真实机器人之外,它还提供额外的优势,即人与目标之间几乎直接的交互,这对于接触丰富的力为中心操作至关重要。

另一方面,涉及力的机器人模仿学习,尚未得到充分探索。模仿策略学习模仿人类小脑的功能,研究发现,中枢神经系统可以预测力负荷,甚至将这种动态信息融合到人类运动的内部模型中 [1]。所以关心的是,引入力是否可以帮助模型更好地学习并指导低级机器人控制。

机器人数据收集系统:收集机器人操作演示的直接方法是遥操作 [4],即人类操作员通过各种用户界面远程控制机器人执行操作任务,包括触觉设备 [7]、外骨骼 [8–10]、虚拟现实 [11–14] 和领导者-追随者范式 [15–19]。遥操作可以收集真实的机器人数据,训练和部署数据之间没有域差距,但它在人类操作员和机器人之间造成非直观的控制性质,即使增加力反馈也是如此。最近,手持式夹持器 [5、6、20–22] 使野外学习成为可能。然而,虽然手持式夹持器在数据收集过程中提供更自然的体验,但它并没有让策略模型意识到这种交互,也没有记录交互力。

机器人模仿学习:从人类专家收集的演示中进行模仿学习 (IL) 已广泛应用于机器人学习任务。行为克隆 (BC) [23] 是 IL 中最简单的方法之一,它以监督的方式直接学习从观察到相应机器人动作的策略映射。尽管 BC 很简单,但它在各种机器人操作中已经显示出许多令人兴奋的结果。大多数方法使用神经网络参数化策略 [17, 24, 25],将 2D 原始图像像素映射到动作空间,而一些非参数方法 [26] 利用最近邻从演示数据集中检索动作。最近,扩散策略 [27] 以视觉表示为条件,并使用扩散模型对动作轨迹进行去噪。在此基础上,几种方法 [28, 29] 已适应 3D 点云作为观察。然而,目前的模仿学习方法主要关注基于轨迹的技能,缺乏对交互力等动作空间的探索。力感知和控制在操作任务中起着至关重要的作用,通过视觉引导提供有价值和互补的信息 [30]。已有多项研究探索了接触丰富的机器人操作中的力,从打开瓶盖 [31]、组装 [32] 到玩叠叠乐 [33]。最近,MOMA-Force [34] 利用视觉表征相似性从专家数据库中检索目标动作和扳手,并使用基于 PID 的控制器 [35, 36] 来控制机器人。ForceSight [37] 提出了一种基于 Transformer 的机器人规划器,它根据文本输入和 RGBD 图像生成基于力的目标。

机器人剥皮:虽然剥皮是一项重要的日常生活工具活动 (IADL),但在当前的机器人研究领域相对较少探索。Dong [38] 尝试通过计算切割平面并控制沿规划轨迹的恒定接触力来剥五种食物,但这种方法严重依赖于预设的假设。MORPHeus [39] 引入神经网络来释放手工制作的感知假设,但它将剥皮过程分成几个单独的模块和预设技能,侧重于高级技能安排。

本文的 ForceMimic 是一种力为中心机器人学习系统,提供自然、力-觉察和无机器人的机器人演示收集体验和力为中心模仿学习算法,配备混合力-位置控制,实现稳健的接触丰富操作,如图所示。首先开发 ForceCapture,一种手持式无机器人数据收集系统。之后,HybridIL 利用数据训练力-觉察策略,输出扳手位置参数。

请添加图片描述

ForceMimic 首先采用 ForceCapture 手持式无机器人数据收集系统,自然地收集以力为中心的人类演示数据。然后,将无机器人数据转换为(伪)机器人数据,弥合域差距。利用这些数据,HybridIL 学会预测扳手姿势轨迹,并应用混合力-位置控制来拟合预测的力-位置参数,从而在接触丰富的操作任务中实现稳健的性能。整体流程如图 所示:

请添加图片描述

硬件设计:ForceCapture

在接触丰富的操作过程中,准确、自然且经济高效地捕获力数据仍然是一项重大挑战。受现有手持式运动数据收集设备 [5、6] 的启发,本文开发一种低成本、多功能且无需机器人的力位置捕获设备 ForceCapture。在设计 ForceCapture 时,始终坚持以下目标:
(1) 可扩展性。可扩展性的关键因素包括低成本、与不同力传感器的兼容性、易于制造和维护。
(2) 现场力的真实感。与通过力反馈创造临场感的遥操作系统不同,本文目标是直接从人类操作中捕获实时力数据,而无需用户学习如何与设备创建的人工环境进行交互。
(3) 人体工程学舒适度。设备必须遵循人体工程学原则,包括适当的重心和操作的便利性,以确保它不会干扰用户的自然操作习惯。由于需要记录准确的交互力数据,不良的人体工程学可能会改变肌肉用力模式或引起不适,从而导致操作过程中的力数据不自然。

整体设计如图所示,其中展示两个版本,一个带有固定工具,另一个带有自适应夹持器。 其核心所示,这两种设计都具有一个放置在末端执行器和用户抓握手柄之间六轴力传感器的特征,可用于捕捉执行器与环境的交互扳手。 此外,位于力传感器中心附近的 SLAM 相机,记录交互过程中的运动数据。 用户握住手柄以直接操作工具或控制手指进行抓取和操纵任务。 夹持器版本位于两个手指底部的齿条齿轮(rack-and-pinion)机构确保夹持器的同步运动。 小齿轮连接到编码器,编码器记录夹持器的张开距离。 连续宽度值是根据编码器角度和夹持器宽度之间的校准关系确定的。

请添加图片描述

值得注意的是,在手动控制夹钳的开合过程中,手对夹钳施加的力也会施加到力传感器上。为了解决这个问题,设计 © 所示。一旦手指闭合,就无法从指尖打开。相反,只能使用杠杆机构释放它们以解锁夹钳。这种设计符合夹钳开合的自然逻辑,并符合人体工程学原理。此外,ForceCapture 的整体设计,其重心位于手柄上方,符合人手自然的施力习惯。

ForceCapture 的制造非常简单,主体完全采用 3D 打印生产。打印部件和编码器的总成本约为 50 美元,符合成本效益的设计目标。配备夹爪的设备重量仅为 0.8kg,其中力传感器重 0.5kg,配件重量仅为 0.3kg,比一罐可乐还要轻。

数据收集和迁移

数据收集系统包括一个六轴 F/T 传感器、一个 RealSense T265 SLAM 摄像头和一个外部 RealSense L515 RGB-D 摄像头。对于夹持器版本,还收集编码器角度数据。它们各自的采样频率分别为 1000 Hz、200 Hz、30 Hz 和 30 Hz。每个传感器都以自己的频率收集数据,在数据处理过程中,所有频率都对齐以匹配 L515 观察的频率。

在初始阶段,T265 放置在 L515 支架上,T265 和 L515 之间的相对位置由它们的安装位置决定。一旦开始数据收集,T265 就会从支架上拆下并放置在 ForceCapture 上。此过程类似于 DexCap [6],其中 T265 相对于 L515 的初始位置用于跟踪 ForceCapture 的位置。

ForceCapture 旨在仅记录末端执行器与外部环境之间的相互作用力。但是,力传感器测量的是综合力,包括工具的重力和惯性力。因此,需要从力传感器数据中减去工具或夹持器产生的外力。假设 ForceCapture 的数据收集过程是准静态的,这意味着在每个位置,力都处于静态平衡状态,只需要补偿工具的重力。为了进行重力补偿,首先以准静态方式移动 ForceCapture 一段时间,同时记录姿势和扳手数据。利用每个位置的静态平衡力,构建一个超定方程组,使用最小二乘(LS)解来估计工具的质心和重量。

此外,L515 相机记录的 RGB-D 图像被反向投影到点云中。为了减少数据采集过程中的点云与机器人部署中使用的点云之间的差异,统一排除操作背景和末端执行器坐标系上方的点云,仅保留一致的末端执行器和目标点云。并将点云体素化为 10,000 的大小。

学习算法:HybridIL

HybridIL,一种以力为中心的端到端模仿学习方法,它将感知映射到力-位置混合控制策略。HybridIL 将点云作为视觉输入,通过 MLP 编码器将其表示为一维视觉特征。然后,这些特征与机器人的 TCP 姿势级联,形成多种模态的联合表示。策略生成,利用改进的扩散策略 [27] 来预测接下来 20 个时间步骤中的位置和扳手参数。

需要注意的是,扳手和位置控制必须正交。虽然模型没有明确模拟扳手和位置的正交性,但通过与模型预测的力-位置参数一致的正交力-位置混合控制器,可实现这一点。这种方法不同于传统的模仿学习方法,后者通常使用固定的低级位置控制器来跟踪模型的位置命令预测。 HybridIL 采用两个不同的控制原语来拟合模型的预测力-位置参数。当预测力低于阈值 6N 时,使用基于 IK 的 [42] 关节位置控制器。如果预测力在连续步骤中超过 6N,则采用混合力-位置控制器来执行模型的预测参数。6N 的力阈值是根据经验确定的。正交力-位置匹配方法如图所示。

请添加图片描述

对于力连续超过 6N 的力-位置动作,运动方向根据前后的位置信息确定。相应的预测力信息被投影到运动方向的正交平面上,这定义执行期间的力控制参数。对于混合力-位置控制的初始步骤,如果末端执行器尚未与物体接触,则应用与力控制相反方向的按压控制以实现稳定接触。这些功能是使用关节位置控制和混合力-位置控制原语的 Flexiv RDK (https://github.com/flexivrobotics/flexiv_rdk ) ,通过执行 HybridIL 力-位置动作来实现。

实验装置如图 (a) 所示。程序包括拿起削皮器,在支架上削西葫芦,放下削皮器,然后抓住西葫芦调整其削皮方向,直到整个蔬菜都削好。由于任务涉及力捕获和手指运动,使用 ForceCapture 的夹持器版本进行数据收集。遥操作装置遵循 RH20T [7] 中描述的配置。

请添加图片描述

上图(b)显示完成剥皮任务的时间比较。结果表明,遥操作所花的时间大约是 ForceCapture 的三倍,而 ForceCapture 所花的时间非常接近人类直接剥皮所花的时间。

为了评估 ForceMimic 的有效性,将剥皮动作制定为端到端技能学习任务。数据收集利用 ForceCapture 的固定工具版本。用户用左夹持器将西葫芦固定住,用右 ForceCapture 剥皮。机器人实验设置把 L515 RGB-D 相机安装在机械臂外部。L515 相机在数据收集和机器人实验期间都保持一致的位置,但它可以灵活定位,以便像 DexCap [6] 一样进行便携式野外数据收集。配备夹持器的机器人用于基于规则稳定西葫芦,而右臂的固定剥皮器与 ForceCapture 中使用的相同,通过 HybridIL 执行剥皮技能。实验中使用的机械臂是 Flexiv Rizon 4,具有精确的力感应和力控制能力。

处理 15 个西葫芦,收集 438 个剥皮技能片段,总共得到 30,199 个动作序列。这些动作相对于感知数据前进 3 个时间步。HybridIL 模型和基线方法都分别进行 500 个 epoch 的训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【愚公系列】《Python网络爬虫从入门到精通》045-Charles的SSL证书的安装

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主&…

vulnhub靶场【digitalworld.local系列】的electrical靶机

前言 靶机:digitalworld.local-electrical,IP地址为192.168.10.12,后期因为卡顿,重新安装,ip地址后面为192.168.10.11 攻击:kali,IP地址为192.168.10.6 kali采用VMware虚拟机,靶机…

macos 程序 运行

sudo xattr -r -d com.apple.quarantine [/Applications/Name]使用stow 管理配置文件

多视图几何--结构恢复--三角测量

三角测量 1. 核心公式推导 假设两个相机的投影矩阵为 P P P 和 P ′ P P′,对应的匹配图像点(同名点)为 ( u , v ) (u, v) (u,v) 和 ( u ′ , v ′ ) (u, v) (u′,v′),目标是求解三维点 X [ X x , X y , X z , 1 ] T X [X_x, X_y, X_z, 1]^T X…

共享内存的原理和创建

目录 共享内存的原理 共享内存的创建 代码实现创建 共享内存的管理指令 我们今天来学习共享内存!!! 共享内存的原理 两个进程同时使用内存中开辟的共享空间进行通信就是建立并使用共享内存进行进程间的通信。System V 共享内存&#xf…

3.10[A]cv

核心模块: rasterizer:光栅化器,负责三角形遍历和像素绘制Shader:包含顶点着色器和多种片元着色器Texture:纹理处理模块 顶点着色器的计算量一般远小于片元着色器。因为组成三角形的顶点相对有限,而片元需…

mac使用Homebrew安装miniconda(mac搭建python环境),并在IDEA中集成miniconda环境

一、安装Homebrew mac安装brew 二、使用Homebrew安装miniconda brew search condabrew install miniconda安装完成后的截图: # 查看是否安装成功 brew list环境变量(无需手动配置) 先执行命令看能不能正常返回,如果不能正常…

多视图几何--相机标定--从0-1理解张正友标定法

1基本原理 1.1 单应性矩阵(Homography)的建立 相机模型:世界坐标系下棋盘格平面(Z0)到图像平面的投影关系为: s [ u v 1 ] K [ r 1 r 2 t ] [ X Y 1 ] s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} K…

WWDG窗口看门狗原理

WWDG(窗口看门狗)在窗口期喂狗 作用: 原理: 框图 WWDG寄存器: WWDG_CR控制寄存器 WWDG_CFR配置寄存器 状态寄存器WWDG_SR 超时时间计算公式 最小最大超时值 HAL配置函数: 1. IWDG 和 WWDG 的区别 IWDG&…

无公网IP也能远程控制Windows:Linux rdesktop内网穿透实战

文章目录 前言1. Windows 开启远程桌面2. Linux安装rdesktop工具3. Win安装Cpolar工具4. 配置远程桌面地址5. 远程桌面连接测试6. 设置固定远程地址7. 固定地址连接测试 前言 如今远程办公已经从一种选择变成了许多企业和个人的必修课,而如何在Linux系统上高效地访…

Pygame实现射击鸭子游戏3-2

2 鸭子类Target的创建 2.1 __init__()函数 Target类的__init__()函数代码如图5所示。 图5 __init__()函数代码 其中,第18行将Target类声明为pygame.sprite.Sprite类的子类;第19行代码中,__init__()函数的img_path参数表示鸭子图片的文件名…

利用Java爬虫获取衣联网商品详情:实战指南

在电商领域,获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台,提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序,通过商品ID获取衣联网商品详情。 一、准备工作 (一)环境搭…

五、OpenGL中Shader与C++数据传输

文章目录 一、概述二、Shader 代码文件的基本格式三、Shader的向量语法介绍四、Shader之间的数据传输五、Shader与C的数据传输uniform六、完整示例 一、概述 在 OpenGL 中,Shader(着色器)使用 GLSL(OpenGL Shading Language&…

【3DMAX插件】3DMAX建筑大师插件MasterBuilder使用方法

3DMAX建筑大师插件是一款专为3DMAX设计的程序化(参数化)建筑建模工具,其最大特点是能够一键生成建筑模型,极大地提升了工作效率。该插件配备了多种结构控制选项,涵盖阳台、门窗、栏杆、楼顶水塔等附属建筑元素&#xf…

隐私保护在 Facebook 用户身份验证中的应用

在这个数字化的时代,个人隐私保护成为了公众关注的焦点。社交媒体巨头 Facebook 作为全球最大的社交平台之一,拥有数十亿用户,其在用户身份验证过程中对隐私保护的重视程度直接影响着用户的安全感和信任度。本文将探讨 Facebook 在用户身份验…

Swift Package Manager (SPM) 创建并集成本地库

在macOS 项目中,使用 Swift Package Manager (SPM) 创建并集成本地库的完整步骤。 创建一个macos应用程序,选择 swift、oc、swiftui都可以。 创建好应用之后,开始创建SPM本地库。 打开终端app,进入项目根目录,逐次输…

渗透测试之利用sql拿shell(附完整流程+防御方案)【下】

导读: 时刻保持谦逊,始终保持学习,探寻事物的本质,不要把事情复杂化 话不多说,书接上回 三、利用日志getshell 利用条件: 拥有网站的写入权限知道网站的绝对路径数据库日志开启 实际操作: (1)查看数据库日志是否开启以及路径 show variables like %general%; (2…

LeetCode 热题 100_每日温度(72_739_中等_C++)(栈)(暴力破解;栈(从左到右);栈(从右到左))

LeetCode 热题 100_每日温度(72_739) 题目描述:输入输出样例:题解:解题思路:思路一(暴力破解法(双重循环)):思路二(栈:从左到右)&…

【HarmonyOS Next之旅】DevEco Studio使用指南(二)

目录 1 -> 工程模板介绍 2 -> 创建一个新的工程 2.1 -> 创建和配置新工程 2.1.1 -> 创建HarmonyOS工程 2.2.2 -> 创建OpenHarmony工程 1 -> 工程模板介绍 DevEco Studio支持多种品类的应用/元服务开发,预置丰富的工程模板,可以根…

unity3d 背景是桌面3d数字人,前面是web的表单

是可以实现的,但涉及多个技术栈的结合,包括 Unity3D、Web 技术(HTML、JavaScript)、以及可能的 WebGL 或 WebRTC 技术。大致有以下几种实现方案: 方案 1:Unity 作为独立应用(桌面端&#xff0…