EO-1是一款3B参数的开源具身智能VLA模型,采用统一的decoder-only Transformer架构,结合离散自回归解码与连续流匹配去噪。通过交织的视觉-文本-动作预训练,实现感知、规划、推理和行动的无缝融合。在长时域灵巧任务、开阔世界具身泛化和推理增强泛化方面表现优异,超越现有开源模型。其共享参数设计实现知识迁移和无缝混合模态生成,支持"思考-行动-观察-再思考"的自然流程,适用于多种真实机器人平台。
简要介绍
EO-1 是 EO Robotics 推出的一款开源统一的具身基础模型(Open Unified Embodied Foundation Model),专门用于通用机器人控制。
它拥有3B 参数,通过精心策划的交织具身数据集EO-Data1.5M进行训练。模型采用单一的统一decoder-only Transformer架构,将离散自回归解码与连续流匹配去噪相结合,通过交织的视觉-文本-动作预训练(interleaved vision-text-action pretraining),实现在单个模型中无缝完成感知、规划、推理和行动。
核心亮点
在多个具身推理和机器人控制基准测试中超越现有的开源模型,包括ERQA、LIBERO、SimplerEnv以及自建的EO-Bench。
在广泛的真实机器人评估中,展现出更强的推理能力和开阔世界泛化下的灵巧控制能力。
特别擅长长时域灵巧任务(long-horizon dexterity),例如:
制作早餐三明治(Make Breakfast Sandwich)
烤牛排(Roast Beef Steak)
折叠家居衣服(Fold Household Clothes)
分类杂货物品(Sort Grocery Items) 这些任务需要多模态理解 + 精细操作,EO-1 在复杂真实环境中表现出稳定性和强悍的长时序执行能力。
开阔世界具身泛化能力突出:在不同任务指令、物体位置变化、动态光照条件、未见过背景等情况下,仍能保持稳定的指令跟随。
通过统一的推理增强泛化:在视觉重新布置(Visual Rearrangement)、井字游戏(Tic-Tac-Toe)等推理控制任务中,无缝整合高层具身推理与低层机器人控制,实现上下文感知的推理来指导行动的平滑正确执行。
EO-1 在具身推理和机器人控制基准测试中超越了现有的开源模型
EO-1 能够在多种机器人平台上执行广泛的真实世界操作任务。
算法框架
EO-1 模型采用了一种统一的 Vision-Language-Action (VLA) 架构,核心是一个单一的decoder-only Transformer,通过巧妙整合离散自回归解码(discrete auto-regressive decoding)和连续流匹配去噪(continuous flow matching denoising),实现了多模态具身推理与机器人控制的无缝融合。
整体架构概述
统一骨干网络:模型基于 Qwen2.5-VL 初始化权重,继承了强大的视觉-语言理解能力。随后在统一的 Transformer 主干上共享参数,同时配备两个专用头:
LM Head(语言建模头):用于离散的文本/多模态推理输出(next-token prediction),处理自然语言指令、视觉描述、具身推理等。
Flow Head(流匹配头):专用于生成连续的机器人动作(continuous action generation),通过流匹配(flow matching)机制预测动作向量场。
交织 token 序列(Interleaved Token Sequence):输入采用视觉-文本-动作交织的形式,将以下内容编码为统一的 token 流:
自然语言指令(text tokens)
图像观察(vision tokens,包括多视角图像、腕部图像等)
机器人状态(state tokens)
带噪动作(noisy action tokens,用于去噪训练)
这些 token 在共享的 Transformer 中通过因果注意力(causal attention)处理,实现模态间的时序依赖和跨模态知识传递。
训练目标协同:
离散部分:采用标准的 next-token prediction(自回归语言建模目标),用于多模态理解、具身推理、规划等高层任务。
连续部分:采用flow matching去噪目标,模型学习从随机噪声逐步去噪生成精确的连续动作序列。动作生成遵循前向 Euler 积分规则:
其中:
是流匹配网络预测的向量场(velocity field)。
从 τ = 0(纯噪声 )积分到 τ = 1,逐步去噪得到最终干净动作。
δ 为积分步长。
这种设计让模型能在同一框架内同时输出文本推理结果和可执行的连续动作 chunk,实现“推理引导行动、行动反馈推理”的闭环。
关键优势与设计理念
共享参数带来的知识迁移:视觉-语言预训练知识直接通过共享 Transformer 传递到动作生成,避免了传统 VLA 模型中额外引入独立动作模块的弊端,提升了跨模态对齐效率和泛化能力。
无缝混合模态生成:模型支持交替输出 LM Head(文本/推理)和 Flow Head(动作),在长时域任务中可实现“思考-行动-观察-再思考”的自然流程。
从示意图看流程(结合你提供的 Figure 1 和底部 token 示例):
输入:视觉提示(Visual Prompt) + 随机图像 + 状态 + 噪声动作 → 交织 token 序列(蓝:视觉、灰:文本、粉:动作/状态)。
Transformer 处理后:交替使用 LM Head 生成文本推理(例如规划步骤、空间理解),Flow Head 生成去噪动作。
输出:既能产生自然语言描述/推理,也能直接输出机器人控制信号,支持从高层具身推理到低层灵巧控制的全链路。
实验效果
EO-1 在长时域灵巧任务(Long-horizon Dexterity)方面表现出专长
研究团队考察了 EO-1 在需要多阶段连续成功执行才能完成的长时域灵巧任务上的能力。他们选取了四个要求复杂多步决策与精细操纵的任务:1) 制作早餐三明治(Make Breakfast Sandwich)、2) 烤牛排(Roast Beef Steak)、3) 折叠家居衣服(Fold Household Clothes)、以及 4) 分类杂货物品(Sort Grocery Items)。EO-1 在这些任务上展现出稳定且强大的长时域灵巧性,这些任务同时需要多模态理解和精细操作,证明了它处理复杂真实世界环境的能力。
EO-1 展现出新兴的开放世界具身泛化能力(Emerging Open-world Embodied Generalization)
具身基础模型的核心挑战在于泛化到真实世界场景,即将自然语言指令 grounding 为精确、可执行的动作。为评估这一能力,研究团队进行了泛化测试,包括不同任务指令、物体位置变化、动态光照条件以及未见过的背景。结果显示,EO-1 能够保持稳定的指令跟随,并在开放世界中展现出良好的泛化能力。
EO-1 通过统一的推理实现了增强的泛化(Enhanced Generalization with Unified Reasoning)
为了验证单一的交织视觉-文本-动作策略是否能在真实环境中无缝整合高层推理与低层控制,研究团队设计了两个推理-控制任务:视觉重新布置(Visual Rearrangement)和井字游戏(Tic-Tac-Toe)。这些任务要求联合感知、空间推理、多步规划以及在真实世界动态下的双臂操作。EO-1 能够无缝地将高层具身推理与低层机器人控制相结合,在需要上下文感知推理来指导行动的推理控制任务中,实现平滑且正确的执行。
EO-1 的训练数据具备可访问的多模态特性(Accessible Multimodal Training Data)
EO-1 在多种模态的多样化数据集上进行训练,包括文本、图像、视频和机器人控制数据,所有这些通过统一的 multimodal 接口来实现具身推理与灵巧控制。预训练数据主要分为三大类:网络多模态数据、机器人控制数据,以及交织具身数据。
其中,交织具身数据 EO-Data1.5M 是一个自建的大规模、高质量多模态具身推理数据集,通过可扩展的数据构建管道实现交织的具身推理与机器人控制。该数据集包含:1) 物理常识(Physical Common Sense),用于理解物理环境;2) 任务推理与空间理解 QA 数据,聚焦于任务规划以及复杂操纵任务的空间关系理解;3) 交织操作数据(Interleaved Manipulation data),将时序/空间推理数据与机器人控制数据连接起来,学习具身交互中的多模态因果关系。
Mbot具身智能实验室
让尖端科技触手可及,人人皆可探索未来
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓