**中文标题:** 视觉-语言-动作模型的推理时间可供性学习
**作者机构:** Ameesh Shah¹, William Chen¹, Adwait Godbole¹, Federico Mora¹, Sanjit A. Seshia¹, Sergey Levine¹,² (加州大学伯克利分校)
**论文地址:** https://arxiv.org/pdf/2510.19752v1
**项目地址:** https://liten-vla.github.io/
**论文贡献:**
* **提出LITEN方法:** 论文引入了一种名为LITEN(Learning from Inference-Time Execution)的推理时间学习方法。该方法将低级VLA策略与高级VLM结合,通过在上下文中包含过去的经验,使VLM能够学习低级VLA的可供性和能力。
* **两阶段迭代自完善:** LITEN采用两阶段迭代方法进行自完善:推理阶段生成并执行低级VLA的计划,评估阶段反思执行结果并提取有用的结论,这些结论会被纳入未来的推理上下文。
* **处理非结构化真实世界数据:** 与现有依赖精确模拟或计算环境反馈的自完善方法不同,LITEN能够处理非结构化的真实世界机器人轨迹(例如原始视频),并通过结构化引导在评估过程中得出有意义的结论。
* **无需额外训练:** LITEN的关键优势在于它不需要额外的训练,并且可以与现成的VLM和VLA配合使用。这使得该方法具有广泛的适用性。
* **实验验证有效性:** 论文在DROID Franka机器人设置上的一系列长程操作任务中验证了LITEN的有效性。实验结果表明,LITEN能够通过重复尝试任务,有效地从过去的经验中学习,并持续改进其规划能力,优于未针对真实世界机器人设计的基线方法。
