AMO——下层RL与上层模仿相结合的自适应运动优化：让人形行走操作(loco-manipulation)兼顾可行性和动力学约束

前言

自从去年24年Q4，我司「七月在线」侧重具身智能的场景落地与定制开发之后

去年Q4，每个月都会进来新的具身需求
今年Q1，则每周都会进来新的具身需求
Q2的本月起，一周不止一个需求
特别是本周，几乎每天都有国企、央企、民企通过我司找到我们，比如钢筋绑扎等等各行各业

而之所以这么受欢迎，个人认为其中一个原因在于
我司不但给客户解决实际业务场景的应用落地、定制开发
还帮助客户成长给他们技术、经验、代码，从而让其从零起步，获得中国具身入场券

使得我们，包括我自己没有一刻停得下来，比如我个人的工作之一就是针对各种项目的各个场景寻找最优的解决方案

比如不在只是单纯的上半身操作，或者下肢行走，而遇到了越来越多的loco-manipulation问题——既涉及运动控制也涉及操作，最简单的比如搬运箱子，以及从地面拾取物品

如此，不可避免的会关注CMU、UC San Diego、斯坦福等高校的各个团队的最新前沿进展

UCSD的Xiaolong Wang团队发布了最新的这个AMO工作《AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control》——25年5.6日提交到的arXiv，个人觉得很有新意，故本文来解读下，且还会顺带解读另一个有些相似的动作：来自CMU的FALCON

第一部分

1.1 引言与相关工作

1.1.1 引言

如AMO论文所述，由于动态人形全身控制具有高维度、高度非线性以及丰富接触的特性。传统的基于模型的最优控制方法需要对机器人及环境进行精确建模，具备高计算能力，并且需要采用reduced-order模型以获得可实现的计算结果，这对于在现实世界中利用过度驱动人形机器人全部自由度（29）的问题来说是不可行的

近年来，强化学习（RL）与仿真到现实（sim-to-real）技术的结合在实现现实世界中的人形机器人行走-操作（loco-manipulation）任务方面展现出巨大潜力 [42-Mobile-television]

尽管这些方法实现了高自由度(DoF)人形机器人的强健实时控制，但通常依赖于大量人类专业知识和奖励函数的手动调整，以确保稳定性和性能

为了解决这一限制，研究人员将动作模仿框架与强化学习结合，利用重定向的人体动作捕捉(MoCap)轨迹来定义奖励目标，引导策略学习 [10-Exbody,28-Omnih2o]
然而，这类轨迹通常在运动学上可行，却未能考虑目标人形平台的动态约束，从而在仿真动作与硬件可执行行为之间引入了体现差距（embodiment gap）
另一种方法则将轨迹优化（TO）与强化学习结合，以弥合这一差距
38-Reinforcement learning for robust parameterized locomotion control of bipedal robots
41-Opt2skill: Imitating dynamicallyfeasible whole-body trajectories for versatile humanoid
loco-manipulation

尽管上述这些方法推动了人形机器人行走-操作能力，当前的方法仍然局限于简化的运动模式，而未能实现真正的全身灵巧性，原因在于

基于动作捕捉的方法存在固有的运动学偏差：其参考数据集主要包含双足步态序列（如行走、转向），却缺乏对实现高度灵巧操作至关重要的手臂-躯干协调动作
相反，基于轨迹优化TO的方法则面临互补的局限性——它们依赖于有限的运动基元库，并且在实时应用中的计算效率低下，阻碍了策略的泛化能力。这在需要对非结构化输入做出快速适应的动态场景中(如反应式远程操作或环境扰动)严重制约了实际部署

为弥合这一差距，作者提出了自适应运动优化（AMO）——一种用于人形机器人实时全身控制的分层框架，通过两项协同创新实现：

混合运动合成：通过融合来自动作捕捉数据的手臂轨迹与概率采样的躯干朝向，构建混合上半身指令集，从系统上消除训练分布中的运动学偏差
这些指令驱动具备动力学感知的轨迹优化器，生成既满足运动学可行性又满足动力学约束的全身参考动作，从而构建了AMO数据集——首个专为灵巧行走操作设计的人形机器人动作库
可泛化策略训练：虽然直接将指令映射到动作的离散查找表是一种简单的解决方案，但此类方法本质上仅限于离散的、分布内场景
AMO网络则学习连续映射，实现了在连续输入空间及分布外(O.O.D)远程操作指令之间的稳健插值，同时保持实时响应能力

在部署过程中，作者首先从VR远程操作系统中提取稀疏姿态，并通过多目标逆向运动学输出上半身目标。训练好的AMO网络和RL策略共同输出机器人的控制信号

1.1.2 相关工作

第一，对于人形机器人全身控制

由于人形机器人具有高自由度和非线性，全身控制依然是一个具有挑战性的问题

此前，这一问题主要通过动力学建模和基于模型的控制方法实现
14- The mit humanoid robot: Design,motion planning, and control for acrobatic behaviors
16-Synchronized humanhumanoid motion imitation. IEEE Robotics and Automation Letters
18-Whole body humanoid control from human motion descriptors
19-Wholebody geometric retargeting for humanoid robots
31-The development of honda humanoid robot
32-Anymal-a highly mobile and dynamic quadrupedal robot
34-A simple modeling for a biped walking pattern generation
35-Development of wabot 1
51-Dynamic walk of a biped
52-Whole-body control of humanoid robots
56-A multimode teleoperation framework for humanoid loco-manipulation: An application for the icub robot
72-Hybrid zero dynamics of planar biped walkers
75-Simbicon: Simple biped locomotion control
近年来，深度强化学习方法已在实现足式机器人鲁棒行走性能方面展现出潜力
3-Legged locomotion in challenging terrains using egocentric vision
7-Legs as manipulator: Pushing quadrupedal agility beyond locomotion
8-Extreme parkour with legged robots
20-Learning vision-based bipedal locomotion for challenging terrain
21-Adversarial motion priors make good substitutes for complex reward functions
22- Learning deep sensorimotor policies for vision-based autonomous drone racing
23-Minimizing energy consumption leads to the emergence of gaits in legged robots
26-Opt-mimic: Imitation of optimized trajectories for dynamic quadruped behaviors
37-Rma: Rapid motor adaptation for legged robots
38-Reinforcement learning for robust parameterized locomotion control of bipedal robots
39-Reinforcement learning for versatile, dynamic, and robust bipedal locomotion control
40-Berkeley humanoid: A research platform for learning-based control
46- Learning to jump from pixels
47-Rapid locomotion via reinforcement learning
61- Learning humanoid locomotion with transformers
67-Blind bipedal stair traversal via sim-to-real reinforcement learning
73-Generalized animal imitator: Agile locomotion with versatile motion prior
74-Neural volumetric memory for visual locomotion control
79- Robot parkour learning

总之，研究者们已经针对四足机器人
[7,8,22,27-Umi on legs: Making manipulation policies mobile with manipulation-centric whole-body controllers]

和人形机器人 [9-Exbody,24-Humanplus,29-H2O,33- Exbody2]，从高维输入出发研究了全身控制

当然了，其中的
[24-Humanplus] 分别训练了一个 transformer 用于控制，另一个用于模仿学习
[9-Exbody] 仅鼓励上半身模仿动作，而下半身控制则被解耦
[29-H2O] 针对下游任务训练了目标条件策略
所有 [9,24,29] 仅展示了有限的全身控制能力，其约束让人形机器人保持躯干和骨盆静止
而[33-Exbody2] 展示了人形机器人的富有表现力的全身动作，但并未强调利用全身控制来扩展机器人行走-操作任务空间

第二，对于人形机器人的远程操作

人形机器人的远程操作对于实时控制和机器人数据采集至关重要

此前在人形机器人远程操作方面的工作包括 [11,24,28,29,42,64]

例如
24-Humanplus
29-H2O
使用第三人称RGB相机获取人类操作员的关键点。有些工作使用虚拟现实VR为操作员提供以自我为中心的观察视角
[11] 利用 AppleVisionPro 控制带有灵巧手的主动头部和上半身
[42] 使用 Vision Pro 控制头部和上半身，同时通过踏板进行行走控制。人形机器人的全身控制要求远程操作员为机器人提供物理可实现的全身坐标

第三，行走操作模仿学习

模仿学习已被研究用于帮助机器人自主完成任务。现有的工作可根据演示来源分为

从真实机器人专家数据学习
4-RT-1
5-RT-2
12-diffusion policy
13-UMI
25-Mobile ALOHA
36-Droid: A large-scale in-thewild robot manipulation dataset
54-Openx-embodiment
55-The surprising effectiveness of representation learning for visual imitation
65-Yell at your robot
66-Perceiver-actor
76- 3d diffusion policy
78-ALOHA ACT
从游戏数据学习
15-From play to policy:Conditional behavior generation from uncurated robot data
50-Alan : Autonomously exploring robotic agents in the real world
70- Mimicplay: Long-horizon imitation learning by watching human play
从人类演示学习
9-Exbody
21-Adversarial motion priors make good substitutes for complex reward functions
24-Humanplus
26-Opt-mimic
29-H2O
57-Learning agile robotic locomotion skills by imitating animals
58-AMP: adversarial motion priors for stylized physics-based character control
71-Unicon: Universal neural controller for physicsbased character motion
73-Generalized animal imitator: Agile locomotion with versatile motion prior

这些模仿学习研究主要局限于操作技能，而针对行走操作的模仿学习研究非常少。[25]研究了基于轮式机器人的行走操作模仿学习

本文利用模仿学习使人形机器人能够自主完成行走操作任务

1.2 自适应运动优化

AMO定位于自适应运动优化，是一个实现无缝全身控制的框架，如图2所示

系统被分解为四个阶段：

通过轨迹优化收集AMO数据集进行AMO模块训练
通过在仿真中采用师生蒸馏进行强化学习（RL）策略训练
通过逆运动学（IK）和重定向实现真实机器人远程操作
结合transformer，通过模仿学习（IL）进行真实机器人自主策略训练

1.2.0 问题表述与符号定义

作者针对人形机器人全身控制的问题，重点关注两种不同的设置：远程操作和自主控制

在遥操作环境中，整体控制问题被表述为学习一个目标条件策略 $\pi^{\prime}: \mathcal{G} \times \mathcal{S} \rightarrow \mathcal{A}$ ，其中
$\mathcal{G}$ 表示目标空间
$\mathcal{S}$ 表示观测空间
$\mathcal{A}$ 表示动作空间

$\rightarrow$ 目标条件遥操作策略接收来自遥操作员的控制信号 $\mathbf{g} \in \mathcal{G}$ ，其中
$\mathrm{g}=\left[\mathbf{p}_{\text {head }}, \mathbf{p}_{\text {left }}, \mathbf{p}_{\text {right }}, \mathbf{v}\right] \cdot \mathbf{p}_{\text {head }}, \mathbf{p}_{\text {left }}, \mathbf{p}_{\text {right }}$ 表示操作员的头部和手部关键点姿态
而 $\mathbf{v}=\left[v_{x}, v_{y}, v_{\text {yaw }}\right]$ 指定底座速度
$\rightarrow$ 观测 $\mathbf{s} \in \mathcal{S}$ 包括视觉和本体感觉数据： $\mathbf{s}=\left[\mathrm{img}_{\text {left }}, \mathrm{img}_{\text {right }}, \mathbf{s}_{\text {proprio }}\right]$
$\rightarrow$ 动作 $\mathbf{a} \in \mathcal{A}$ 由上半身和下半身的关节角度指令组成： $\mathbf{a}=\left[\mathbf{q}_{\text {upper }}, \mathbf{q}_{\text {lower }}\right]$

进一步讲，目标条件化策略采用分层设计： $\pi^{\prime} \quad=\quad\left[\pi_{\text {upper }}^{\prime}, \pi_{\text {lower }}^{\prime}\right]$

上层策略 $\pi_{\text {upper }}^{\prime}\left(\mathbf{p}_{\text {head }}, \mathbf{p}_{\text {left }}, \mathbf{p}_{\text {right }}\right)=\left[\mathbf{q}_{\text {upper }}, \mathbf{g}^{\prime}\right]$ 输出上半身的动作，以及中间控制信号 $\mathbf{g}^{\prime}=[\mathbf{r p y}, h]$ ，其中 $rpy$ 指令躯干方向， $h$ 指令基座高度
下层策略 $\pi_{\text {lower }}^{\prime}\left(\mathbf{v}, \mathbf{g}^{\prime}, \mathbf{s}_{\text {proprio }}\right)=\mathbf{q}_{\text {lower }}$ 利用此中间控制信号、速度指令和本体感觉观测生成下半身的动作

在自主环境中，学习到的策略 $\pi: \mathcal{S} \rightarrow \mathcal{A}$ 仅基于观测生成动作，无需人为输入
进一步而言，自主策略 $\pi=\left[\pi_{\text {upper }}, \pi_{\text {lower }}\right]$ 与遥操作策略采用相同的分层设计
下层策略是相同的： $\pi_{\text {lower }}=\pi_{\text {lower }}^{\prime}$
而上层策略则独立于人类输入生成动作和中间控制
$\pi_{\text {upper }}\left(\mathrm{img}_{\text {left }}, \mathrm{img}_{\text {right }}, \mathbf{s}_{\text {proprio }}\right)=\left[\mathbf{q}_{\text {upper }}, \mathbf{v}, \mathbf{g}^{\prime}\right]$

1.2.1 适应模块预训练

在AMO的系统规范中，下层策略遵循形式为 $\left[v_{x}, v_{y}, v_{\text {yaw }}, \mathbf{r p y}, h\right]$ 的指令。跟随速度指令 $\left[v_{x}, v_{y}, v_{\text {yaw }}\right]$ 的运动能力可以通过在仿真环境中随机采样定向向量，并采用与[8, 9-Exbody] 相同的策略轻松学习

然而，学习躯干和高度跟踪技能则并非易事，因为它们需要全身协调。与运动任务不同，在运动任务中可以基于Raibert 启发式[62]设计足部跟踪奖励以促进技能学习，而对于引导机器人完成全身控制，则缺乏类似的启发式方法

一些工作[28-Omnih2o, 33-Exbody2]通过跟踪人类参考来训练此类策略。然而，他们的策略并未在人体姿态与全身控制指令之间建立联系

为了解决这个问题，作者提出了一种自适应运动优化(adaptive motion optimization，简称AMO)模块

AMO 模块表示为 $\phi\left(\mathbf{q}_{\text {upper }}, \mathbf{r p y}, h\right)=\mathbf{q}_{\text {lower }}^{\text {ref }}$ 。当接收到来自上层的全身控制指令 $rpy$ ， $h$ 后，它将这些指令转换为所有下肢执行器的关节角参考值，供下层策略显式跟踪

为了训练这个自适应模块

首先，通过随机采样上层指令并执行基于模型的轨迹优化来收集AMO 数据集，以获得下肢关节角

轨迹优化可以被表述为一个多接触最优控制问题（MCOP），其代价函数如下
$\begin{aligned} \mathcal{L} & =\mathcal{L}_{\mathbf{x}}+\mathcal{L}_{\mathbf{u}}+\mathcal{L}_{\mathrm{CoM}}+\mathcal{L}_{\mathrm{rpy}}+\mathcal{L}_{h} \\ \mathcal{L}_{\mathbf{x}} & =\left\|\mathbf{x}_{t}-\mathbf{x}_{\mathrm{ref}}\right\|_{\mathbf{Q}_{x}}^{2} \\ \mathcal{L}_{\mathbf{u}} & =\left\|\mathbf{u}_{t}\right\|_{\mathbf{R}}^{2} \\ \mathcal{L}_{\mathrm{CoM}} & =\left\|\mathbf{c}_{t}-\mathbf{c}_{\mathrm{ref}}\right\|_{\mathbf{Q}_{\mathrm{CoM}}}^{2} \\ \mathcal{L}_{\mathrm{rpy}} & =\left\|\mathbf{R}_{\text {torso }}-\mathbf{R}_{\mathrm{ref}}(\mathbf{r p y})\right\|_{\mathbf{Q}_{\text {torso }}}^{2} \\ \mathcal{L}_{h} & =w_{h}\left(h_{t}-h\right)^{2} \end{aligned}$
其中包括对状态 $\mathrm{x}$ 和控制 $u$ 的正则化、目标跟踪项Lrpy 和Lh，以及用于在进行全身控制时确保平衡的质心(CoM)正则化项
在收集数据集时，作者
$\rightarrow$ 首先从AMASS 数据集[43] 中随机选择上半身动作，并采样随机躯干指令
$\rightarrow$ 然后，执行轨迹优化，以在保持稳定质心并遵守扳手锥约束的同时，跟踪躯干目标，从而生成动态可行的参考关节角度
由于作者没有考虑行走场景，机器人的双脚都被认为与地面接触

参考数据被通过 Crocoddyl [48,49] 使用受控制约的可行性驱动微分动态规划（BoxFDDP）生成

1.2.2 底层策略训练

使用大规模并行仿真在IsaacGym[44] 中训练他们的低层策略。低层策略旨在跟踪 $\mathbf{g}^{\prime}$ 和 $v$ ，同时利用本体感觉观测 $\mathbf{s}_{\text {proprio }}$ ，其定义如下

$\left[\boldsymbol{\theta}_{t}, \boldsymbol{\omega}_{t}, \mathbf{q}_{t}^{\text {whole-body }}, \dot{\mathbf{q}}_{t}^{\text {whole-body }}, \mathbf{a}_{t-1}^{\text {whole-body }}, \boldsymbol{\phi}_{t}, \mathbf{q}_{\text {lower }}^{\text {ref }}\right]$

上述公式包含了基座朝向 $\theta_{t}$ 、基座角速度 $\omega_{t}$ 、当前位置、速度和上一次的位置目标
值得注意的是，下层策略的观测包括了上半身执行器的状态，以实现更好的上下半身协调
$\phi_{t}$ 是步态循环信号，其定义方式与[45, 77] 类似
$\mathbf{q}_{\text {lower }}^{\text {ref }}$ 是由AMO 模块生成的下半身参考关节角度
下层动作空间 $\mathbf{q}_{\text {lower }} \in \mathbb{R}^{15}$ 是一个15 维向量，由双腿的2 ∗6个目标关节位置和腰部电机的3 个目标关节位置组成

作者选择使用教师-学生框架来训练他们的低层策略

首先训练一个能够在仿真中观察特权信息的教师策略，使用现成的PPO[63]
进一步而言，教师策略可以表述为
$\pi_{\text {teacher }}\left(\mathbf{v}, \mathbf{g}^{\prime}, \mathbf{s}_{\text {proprio }}, \mathbf{s}_{\text {priv }}\right)=\mathbf{q}_{\text {lower }}$

额外的特权观测 $\mathbf{s}_{\text {priv }}$ 定义如下
$\left[\mathbf{v}_{t}^{\mathrm{gt}}, \mathbf{r p y}_{t}^{\mathrm{gt}}, h_{t}^{\mathrm{gt}}, \mathbf{c}_{t}\right]$
其中包括如下真实值：
基座速度 $\mathbf{v}_{t}^{\mathrm{gt}}$
躯干姿态 $\mathbf{r p y}_{t}^{\mathrm{gt}}$
以及基座高度 $h_{t}^{\mathrm{gt}}$
而在跟踪其对应目标时，这些值在现实世界中并不容易获得
$c_{t}$ 是脚与地面之间的接触信号。教师RL训练过程详见原论文的附录B
然后，通过监督学习将教师策略蒸馏到学生策略中。学生策略仅观察现实中可用的信息，可以用于远程操作和自主任务

进一步而言，学生策略可以写成
$\pi_{\text {student }}\left(\mathbf{v}, \mathbf{g}^{\prime}, \mathbf{s}_{\text {proprio }}, \mathbf{s}_{\text {hist }}\right)=\mathbf{q}_{\text {lower }}$

为了用现实世界中可获取的观察结果来补偿 $\mathbf{S}_{\text {proprio }}$ ，学生策略利用了 25 步的本体感觉观察历史作为额外的输入信号：
$\mathbf{s}_{\text {hist }, t}=\mathbf{s}_{\text {proprio }, t-1 \sim t-25}$

1.2.3 遥操作高层策略实现

远程操作上层策略为全身控制生成一系列指令，包括手臂和手的运动、躯干方向以及底座高度

作者选择采用基于优化的方法来实现该策略，以达到操作任务所需的精度

具体来说，手部运动通过重定向生成，而其他控制信号则通过逆运动学（IK）计算
他们的手部重定向实现基于 dex-retargeting [60]。关于重定向公式的更多细节见附录A

在他们的全身控制框架中，他们将传统的逆运动学（IK）扩展为多目标加权逆运动学，通过最小化与三个关键目标（头部、左手腕和右手腕）的6维距离，实现对这些目标的精确控制——机器人调动所有上半身执行器，同时对齐这三个目标

形式化地，目标是
$\begin{aligned} \min _{\mathbf{q}} & \mathcal{L}_{\text {head }}+\mathcal{L}_{\text {left }}+\mathcal{L}_{\text {right }} \\ \mathcal{L}_{\text {head }} & =\left\|\mathbf{p}_{\text {head }}-\mathbf{p}_{\text {head-link }}\right\|^{2}+\lambda\left\|\mathbf{R}_{\text {head }}-\mathbf{R}_{\text {head-link }}\right\|_{F}^{2} \\ \mathcal{L}_{\text {left }} & =\left\|\mathbf{p}_{\text {left }}-\mathbf{p}_{\text {left-link }}\right\|^{2}+\lambda\left\|\mathbf{R}_{\text {left }}-\mathbf{R}_{\text {left-link }}\right\|_{F}^{2} \\ \mathcal{L}_{\text {right }} & =\left\|\mathbf{p}_{\text {right }}-\mathbf{p}_{\text {right-link }}\right\|^{2}+\lambda\left\|\mathbf{R}_{\text {right }}-\mathbf{R}_{\text {right-link }}\right\|_{F}^{2} \\ \mathbf{q} & =\left[\mathbf{q}_{\text {head }}, \mathbf{q}_{\text {left-arm }}, \mathbf{q}_{\text {right-arm }}, \mathbf{r p y}, h\right] \end{aligned}$
如下图图3所示
优化变量 $\text { q }$ 包含了机器人上半身所有驱动自由度（DoFs）： $\mathbf{q}_{\text {head }}$ 、 $\mathbf{q}_{\mathrm{left}-\mathrm{arm}}$ 和 $\mathbf{q}_{\text {right-arm }}$ 。除了电机指令外，还会求解一个中间指令以实现全身协调：用于躯干姿态和高度控制的 $rpy$ 和 $h$

为了确保上半身控制的平滑性，姿态代价在优化变量 $q$ 的不同组成部分上赋予了不同的权重： $\mathbf{W}_{\mathbf{q}_{\text {head }}, \mathbf{q}_{\text {left-arm }}, \mathbf{q}_{\text {right-arm }}}<\mathbf{W}_{\mathbf{r p y}, h}$
这鼓励策略优先使用上半身驱动器来完成较简单的任务

然而，对于需要全身运动的任务，如弯腰拾取或够取远处目标，会生成额外的控制信号 $[\mathrm{rpy}, h]$ 并发送给下层策略
下层策略协调其电机角度以满足上层策略的要求，实现全身目标到达。他们的IK实现采用了Levenberg-Marquardt（LM）算法[68]，并基于Pink[6]

1.2.4 自主上层策略训练：基于模仿学习

作者通过模仿学习来训练自主上层策略

首先，人类操作员对机器人进行远程操作——使用目标条件策略，记录观测和动作作为示范
然后采用以DinoV2 [17, 53] 视觉编码器为策略骨干的ACT [78]。视觉观测包括两张立体图像 $\mathrm{img}_{\text {left }}$ 和 $\text { img }_{\text {right }}$

DinoV2 将每张图片分割为16 × 22 个patch，并为每个patch 生成一个384 维的视觉token，得到的组合视觉token 形状为2 × 16 × 22 × 384

该视觉token 与通过投影获得的状态token 拼接在一起 $\mathbf{o}_{t}=\left[\mathbf{s}_{\text {proprio }, t}^{\text {upper }}, \mathbf{v}_{t-1}, \mathbf{r p y}_{t-1}, h_{t-1}\right]$
其中， $\mathbf{s}_{\text {proprio, } t}^{\text {upper }}$ 是上半身本体感觉观测， $\left[\mathbf{v}_{t-1}, \mathbf{r p y}_{t-1}, h_{t-1}\right]$ 构成了上一次发送给下层策略的指令

由于作者的解耦系统设计，上层策略观测到的是这些下层策略指令，而不是直接的下半身本体感觉
策略的输出表示为
$\left[\mathbf{q}_{t}^{\text {head }}, \mathbf{q}_{t}^{\text {dual-arm }}, \mathbf{q}_{t}^{\text {dual-hand }}, \mathbf{v}_{t}, \mathbf{r p y}_{t}, h_{t}\right]$

包括所有上半身关节角度以及下层策略的中间控制信号

1.3 评估

在本节中，作者旨在通过在仿真和现实世界中的实验来回答以下问题：

AMO 在跟踪运动指令和躯干指令（rpy, h）方面的表现如何？
AMO 与其他 WBC 策略相比如何？
AMO系统在真实环境中的表现如何？

作者在IsaacGym仿真器[44]中进行了模拟实验。真实机器人搭建如图3所示『遥操作系统概览。操作员提供三个末端执行器目标：头部、左手腕和右手腕的位姿。多目标逆运动学（IK）通过同时匹配三个加权目标来计算上层目标和中间目标。中间目标（rpy，h）被输入到AMO，并转换为下层目标』

该机器人是在Unitree G1[1]基础上改装，并配备了两个Dex3-1灵巧手。该平台具有29个全身自由度，每只手有7个自由度
且作者定制了一个带有三个驱动自由度的主动头部，用于映射人类操作员的头部运动，并安装了一台ZED Mini[2]相机用于立体视觉流传输

1.3.1 AMO在跟踪运动指令和躯干指令rpy, h方面的表现如何？

表II展示了AMO性能的评估，并将其与以下基线方法进行了比较：

w/o AMO：该基线遵循与Ours(AMO) 相同的强化学习训练方案，但有两个关键修改
首先，它在观察空间中排除了AMO 输出 $\mathbf{q}_{\text {lower }}^{\text {ref }}$
其次，它不是对偏离 $\mathbf{q}_{\text {lower }}^{\text {ref }}$ 进行惩罚，而是基于偏离默认站立姿态的程度施加正则化惩罚
w/o priv：该基线在训练时不包含额外的特权观测 $\mathbf{s}_{\text {priv }}$
w rand arms：在该基线中，手臂关节角度不是通过从MoCap 数据集中采样的人体参考设置的，而是在各自的关节限制范围内均匀随机采样赋值

性能评估采用以下指标：

躯干方向追踪精度
躯干方向追踪通过 $E_{y}$ ， $E_{p}$ ， $E_{r}$ 进行测量
结果表明
AMO 在横滚和俯仰方向上实现了更高的追踪精度。在俯仰追踪方面的提升最为显著，其他基线方法难以保持精度，而AMO显著降低了追踪误差

w rand arms 表现出最低的偏航追踪误差，这可能是因为随机手臂运动使机器人能够探索更广泛的姿态范围
然而，AMO 在偏航追踪方面并不一定表现突出，因为与横滚和俯仰相比，躯干偏航旋转引起的质心位移较小。因此，偏航追踪精度可能无法充分反映AMO 在生成自适应和稳定姿态方面的能力
尽管如此，值得注意的是，w/o AMO 在偏航追踪方面表现不佳，这表明AMO 为实现稳定的偏航控制提供了关键的参考信息
高度跟踪精度
结果显示，AMO 实现了最低的高度跟踪误差。值得注意的是，w/oAMO 报告的误差显著高于所有其他基线，表明其几乎无法跟踪高度指令

与躯干跟踪不同，躯干跟踪中至少有一个腰部电机角度与指令成正比，而高度跟踪则需要多个下肢关节的协调调整
缺乏来自 AMO 的参考信息，策略无法学习高度指令与相应电机角度之间的变换关系，从而难以掌握这一技能
线速度跟踪精度
AMO模块基于双支撑姿态下的全身控制生成参考姿态，这意味着它未考虑行走过程中因摆脚产生的姿态变化
尽管存在这一限制，AMO仍能实现稳定的行走，并保持较低的跟踪误差，展现出其鲁棒性