快速了解部分
基础信息(英文):
1.题目: LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
2.时间: 2024
3.机构: Berkeley AI Research (BAIR), UC Berkeley
4.3个英文关键词: LMMs, Vision Action Instruction Tuning, Robot Learning
1句话通俗总结本文干了什么事情
本文提出了一种名为LLARVA的模型,通过将机器人的动作转化为2D视觉轨迹并与语言指令结合,让机器人能通过视觉和语言理解来学习和执行各种任务。
研究痛点:现有研究不足 / 要解决的具体问题
现有的大型多模态模型(LMMs)在图像描述和视觉问答上表现不错,但在机器人应用中泛化能力不足。主要痛点在于如何将视觉(看)和行动(做)有效对齐,尤其是在只有2D图像输入的情况下,难以处理复杂的机器人动作和不同环境的迁移。
核心方法:关键技术、模型或研究设计(简要)
核心方法是“视觉-动作指令微调”。具体做法是:将机器人末端执行器(如机械爪)未来的轨迹投影成2D图像上的“视觉轨迹”(Visual Traces),并将其作为辅助任务与动作预测一起训练。模型接收包含机器人类型、任务、控制模式的结构化语言指令,同时输出下一步的动作和对应的视觉轨迹。
深入了解部分
相比前人创新在哪里
- 引入视觉轨迹(Visual Traces):不同于以往使用3D体素或点云的方法,LLARVA创新性地使用2D视觉轨迹作为视觉和动作之间的中间表示,帮助模型在仅有2D图像输入时也能精准定位和规划动作。
- 结构化指令统一框架:设计了一种通用的指令模板,将机器人类型、控制模式、任务描述等信息统一为自然语言前缀,使得单一模型能泛化到多种机器人和任务配置中。
- 无需3D输入的高性能:证明了仅使用单目2D图像和语言指令,通过大规模预训练,也能达到甚至超越依赖复杂3D输入的模型(如PerAct)的效果。
解决方法/算法的通俗解释
想象你正在教一个只会看图和读文字的AI学开赛车。以前的方法是直接告诉它“方向盘转90度”,但AI很难把文字和眼前的画面联系起来。
LLARVA的做法是:在每次下指令时,先在眼前的路面上画一条“虚拟的行车路线”(这就是视觉轨迹),然后告诉AI:“你看这条路线,接下来你要走这一步”。通过大量学习“路线图”和“操作动作”的对应关系,AI就学会了如何把看到的画面转化为具体的驾驶动作。
解决方法的具体做法
- 数据构建:利用Open X-Embodiment (OXE) 数据集,生成850万张图像-视觉轨迹对。视觉轨迹是将机械臂末端在未来时刻的2D坐标点连成的线。
- 模型架构:基于LLaVA架构(Llama2-7B语言模型 + CLIP视觉编码器)。输入是当前图像和包含机器人/任务信息的结构化文本,输出是未来的动作序列和对应的2D视觉轨迹。
- 两阶段训练:
- 预训练:在大规模混合数据集上进行视觉-动作指令微调,学习通用的机器人操作知识。
- 微调:在特定任务的小数据集上进行微调,适应具体环境。
基于前人的哪些方法
LLARVA主要基于LLaVA(Large Language And Vision Assistant)的架构,继承了其视觉编码器(CLIP ViT-L/14)和语言模型(Llama2)的基础结构,并沿用了其投影层设计。同时,它借鉴了指令微调(Instruction Tuning)的思想,将机器人学习任务转化为类似视觉问答的格式。
实验设置、数据、评估方式、结论
- 数据:预训练使用Open X-Embodiment (OXE) 数据集中的850万数据;评估在RLBench模拟器(18个任务)和真实Franka Emika Panda机械臂(3个任务:抓取、堆叠、拆堆)上进行。
- 设置:对比了Image-BC (2D) 和 PerAct, C2FARM (3D) 等基线模型。LLARVA仅使用单目RGB图像,不使用深度或3D信息。
- 结论:
- 在RLBench上,LLARVA在仅使用2D图像的情况下,平均成功率(43.3%)远超其他2D方法(Image-BC仅1.3%),甚至优于部分3D方法。
- 在真实机器人上,LLARVA在所有测试任务中均优于对比模型(RPT和Octo)。
- 消融实验证明,加入“视觉轨迹”预测能使任务成功率平均提升15%。
提到的同类工作
- PerAct:使用3D体素(Voxels)来对齐视觉和动作,是本文主要的对比基准之一。
- Octo:通过大规模预训练学习通用机器人策略,本文指出其在适应不同控制模式时存在困难。
- RT-2:结合了网络规模的视觉-语言数据,本文提到其使用了额外的网络数据,而LLARVA更专注于高效的指令微调。
和本文相关性最高的3个文献
- LLaVA:LLARVA的直接架构基础,提供了视觉-语言指令微调的范式。
- Open X-Embodiment:提供了本文预训练所用的大规模机器人数据集。
- PerAct:代表了使用3D表示(体素)进行机器人操作的SOTA方法,是本文在2D vs 3D性能对比上的主要对手。
我的
- 作者训了一个gripper detector,可以检测末端执行器的位置,可以用。