EO-1具身智能模型开源:3B参数统一架构,真实机器人长时域任务表现优异

EO-1是一款3B参数的开源具身智能VLA模型,采用统一的decoder-only Transformer架构,结合离散自回归解码与连续流匹配去噪。通过交织的视觉-文本-动作预训练,实现感知、规划、推理和行动的无缝融合。在长时域灵巧任务、开阔世界具身泛化和推理增强泛化方面表现优异,超越现有开源模型。其共享参数设计实现知识迁移和无缝混合模态生成,支持"思考-行动-观察-再思考"的自然流程,适用于多种真实机器人平台。


简要介绍

EO-1 是 EO Robotics 推出的一款开源统一的具身基础模型(Open Unified Embodied Foundation Model),专门用于通用机器人控制。

它拥有3B 参数,通过精心策划的交织具身数据集EO-Data1.5M进行训练。模型采用单一的统一decoder-only Transformer架构,将离散自回归解码连续流匹配去噪相结合,通过交织的视觉-文本-动作预训练(interleaved vision-text-action pretraining),实现在单个模型中无缝完成感知、规划、推理和行动。

核心亮点

在多个具身推理和机器人控制基准测试中超越现有的开源模型,包括ERQA、LIBERO、SimplerEnv以及自建的EO-Bench

在广泛的真实机器人评估中,展现出更强的推理能力和开阔世界泛化下的灵巧控制能力。

特别擅长长时域灵巧任务(long-horizon dexterity),例如:

制作早餐三明治(Make Breakfast Sandwich)

烤牛排(Roast Beef Steak)

折叠家居衣服(Fold Household Clothes)

分类杂货物品(Sort Grocery Items) 这些任务需要多模态理解 + 精细操作,EO-1 在复杂真实环境中表现出稳定性和强悍的长时序执行能力。

开阔世界具身泛化能力突出:在不同任务指令、物体位置变化、动态光照条件、未见过背景等情况下,仍能保持稳定的指令跟随。

通过统一的推理增强泛化:在视觉重新布置(Visual Rearrangement)、井字游戏(Tic-Tac-Toe)等推理控制任务中,无缝整合高层具身推理与低层机器人控制,实现上下文感知的推理来指导行动的平滑正确执行。

EO-1 在具身推理和机器人控制基准测试中超越了现有的开源模型

EO-1 能够在多种机器人平台上执行广泛的真实世界操作任务。

算法框架

EO-1 模型采用了一种统一的 Vision-Language-Action (VLA) 架构,核心是一个单一的decoder-only Transformer,通过巧妙整合离散自回归解码(discrete auto-regressive decoding)和连续流匹配去噪(continuous flow matching denoising),实现了多模态具身推理与机器人控制的无缝融合。

整体架构概述

统一骨干网络:模型基于 Qwen2.5-VL 初始化权重,继承了强大的视觉-语言理解能力。随后在统一的 Transformer 主干上共享参数,同时配备两个专用头:

LM Head(语言建模头):用于离散的文本/多模态推理输出(next-token prediction),处理自然语言指令、视觉描述、具身推理等。

Flow Head(流匹配头):专用于生成连续的机器人动作(continuous action generation),通过流匹配(flow matching)机制预测动作向量场。

交织 token 序列(Interleaved Token Sequence):输入采用视觉-文本-动作交织的形式,将以下内容编码为统一的 token 流:

自然语言指令(text tokens)

图像观察(vision tokens,包括多视角图像、腕部图像等)

机器人状态(state tokens)

带噪动作(noisy action tokens,用于去噪训练)

这些 token 在共享的 Transformer 中通过因果注意力(causal attention)处理,实现模态间的时序依赖和跨模态知识传递。

训练目标协同

离散部分:采用标准的 next-token prediction(自回归语言建模目标),用于多模态理解、具身推理、规划等高层任务。

连续部分:采用flow matching去噪目标,模型学习从随机噪声逐步去噪生成精确的连续动作序列。动作生成遵循前向 Euler 积分规则:

其中:

是流匹配网络预测的向量场(velocity field)。

从 τ = 0(纯噪声 )积分到 τ = 1,逐步去噪得到最终干净动作。

δ 为积分步长。

这种设计让模型能在同一框架内同时输出文本推理结果和可执行的连续动作 chunk,实现“推理引导行动、行动反馈推理”的闭环。

关键优势与设计理念

共享参数带来的知识迁移:视觉-语言预训练知识直接通过共享 Transformer 传递到动作生成,避免了传统 VLA 模型中额外引入独立动作模块的弊端,提升了跨模态对齐效率和泛化能力。

无缝混合模态生成:模型支持交替输出 LM Head(文本/推理)和 Flow Head(动作),在长时域任务中可实现“思考-行动-观察-再思考”的自然流程。

从示意图看流程(结合你提供的 Figure 1 和底部 token 示例):

输入:视觉提示(Visual Prompt) + 随机图像 + 状态 + 噪声动作 → 交织 token 序列(蓝:视觉、灰:文本、粉:动作/状态)。

Transformer 处理后:交替使用 LM Head 生成文本推理(例如规划步骤、空间理解),Flow Head 生成去噪动作。

输出:既能产生自然语言描述/推理,也能直接输出机器人控制信号,支持从高层具身推理到低层灵巧控制的全链路。

实验效果

EO-1 在长时域灵巧任务(Long-horizon Dexterity)方面表现出专长

研究团队考察了 EO-1 在需要多阶段连续成功执行才能完成的长时域灵巧任务上的能力。他们选取了四个要求复杂多步决策与精细操纵的任务:1) 制作早餐三明治(Make Breakfast Sandwich)、2) 烤牛排(Roast Beef Steak)、3) 折叠家居衣服(Fold Household Clothes)、以及 4) 分类杂货物品(Sort Grocery Items)。EO-1 在这些任务上展现出稳定且强大的长时域灵巧性,这些任务同时需要多模态理解和精细操作,证明了它处理复杂真实世界环境的能力。

EO-1 展现出新兴的开放世界具身泛化能力(Emerging Open-world Embodied Generalization)

具身基础模型的核心挑战在于泛化到真实世界场景,即将自然语言指令 grounding 为精确、可执行的动作。为评估这一能力,研究团队进行了泛化测试,包括不同任务指令、物体位置变化、动态光照条件以及未见过的背景。结果显示,EO-1 能够保持稳定的指令跟随,并在开放世界中展现出良好的泛化能力。

EO-1 通过统一的推理实现了增强的泛化(Enhanced Generalization with Unified Reasoning)

为了验证单一的交织视觉-文本-动作策略是否能在真实环境中无缝整合高层推理与低层控制,研究团队设计了两个推理-控制任务:视觉重新布置(Visual Rearrangement)和井字游戏(Tic-Tac-Toe)。这些任务要求联合感知、空间推理、多步规划以及在真实世界动态下的双臂操作。EO-1 能够无缝地将高层具身推理与低层机器人控制相结合,在需要上下文感知推理来指导行动的推理控制任务中,实现平滑且正确的执行。

EO-1 的训练数据具备可访问的多模态特性(Accessible Multimodal Training Data)

EO-1 在多种模态的多样化数据集上进行训练,包括文本、图像、视频和机器人控制数据,所有这些通过统一的 multimodal 接口来实现具身推理与灵巧控制。预训练数据主要分为三大类:网络多模态数据、机器人控制数据,以及交织具身数据。

其中,交织具身数据 EO-Data1.5M 是一个自建的大规模、高质量多模态具身推理数据集,通过可扩展的数据构建管道实现交织的具身推理与机器人控制。该数据集包含:1) 物理常识(Physical Common Sense),用于理解物理环境;2) 任务推理与空间理解 QA 数据,聚焦于任务规划以及复杂操纵任务的空间关系理解;3) 交织操作数据(Interleaved Manipulation data),将时序/空间推理数据与机器人控制数据连接起来,学习具身交互中的多模态因果关系。

Mbot具身智能实验室

让尖端科技触手可及,人人皆可探索未来

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1210355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开题答辩全过程】以 基于springboot的流浪动物帮护系统为例,包含答辩的问题和答案

个人简介 一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等 开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。 感谢大家…

大模型训练七步法:系统掌握分布式训练与产业级开发

文章详细介绍了大模型训练的七大核心步骤:数据准备、模型定义、环境配置、训练配置、模型训练、验证测试及模型部署,强调这是一个系统工程任务。同时推荐《人工智能大模型:动手训练大模型基础》一书,该书结合理论与实践&#xff0…

【开题答辩全过程】以 高校社团管理平台为例,包含答辩的问题和答案

个人简介 一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等 开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。 感谢大家…

全网最全2026本科生AI论文写作软件TOP9测评

全网最全2026本科生AI论文写作软件TOP9测评 2026年本科生AI论文写作工具测评:如何选择最适合你的助手 随着人工智能技术的不断进步,越来越多的本科生开始借助AI写作工具提升论文撰写效率。然而,市面上的工具种类繁多,功能各异&…

零基础自学【Web安全/网络渗透】,保姆级快速入门指南(非常详细)

前言 基础真的很简单,是个人稍微认点真都能懂,这就是好多人说的网络安全简单、易懂、好学,然后就是一顿浮夸的言论,误导那些小白,再然后那些小白也就跟着浮夸。这里我就给那些轻浮的人泼一桶冷水,懂跟学会…

2026年目前有实力的中封袋厂商如何选,自立袋/三边封包装袋/中封袋/聚酯尼龙袋/八边封包装袋,中封袋厂家怎么选

中封袋作为塑料包装领域的核心产品,广泛应用于食品、日化、家电等行业。其性能稳定性、交付效率与成本控制能力直接影响终端品牌的市场竞争力。2026年,随着国内包装产业集群化升级与环保政策趋严,中封袋厂商的竞争焦…

大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。 BPE 结束后,模型拿到的已经是 整数序列(token id),下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下: 文本 → BPE 分词 → [token₁, tok…

2026 年家长必看,寒雪老师 AI 家教机如何破解普通学习机痛点

在 K12 AI教育硬件市场,家长们普遍面临一个难题:花几千元买的普通学习机,孩子要么不爱用,要么用了没提分,最终沦为 “摆设”。而以寒雪老师 AI 家教机为代表的真正 一对一AI家教机,却凭借对家长核心痛点的精准破…

老人学生哪些补脑产品靠谱?精选DHA藻油磷脂酰丝氨酸多氨神经酸脑活素排行榜前10盘点,榜首助记忆力提高脑活力

过去三年,国内主流电商与线下药房共上架脑营养类SKU超1200个,其中含磷脂酰丝氨酸、DHA藻油、多氨神经酸三大关键词的单品复购率最高。综合天猫、京东、拼多多、小红书、抖音五大平台公开评论与第三方检测机构抽样,发…

2026年湖南靠谱的冷库建造生产厂排名,宏国制冷上榜

2026年冷链经济持续升级,冷库建造的合规性、稳定性与本地化服务能力已成为医药、食品、物流企业保障产品品质、拓展市场边界的核心支撑。无论是GSP医药冷库的精准温控、药品阴凉库的智能监测,还是定制化冷链仓储解决…

2026年靠谱的荧光磁粉探伤机厂家排名,实用之选大盘点

在工业制造的质量管控环节中,荧光磁粉探伤机作为铁磁性材料缺陷检测的关键设备,其性能稳定性与检测精准度直接关系到产品安全与企业声誉。面对市场上鱼龙混杂的供应商,如何挑选技术可靠、服务完善的荧光磁粉探伤机厂…

讲讲灌装机生产商哪家好,推荐优质灌装机生产厂家

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家灌装机标杆企业,为企业选型提供客观依据,助力精准匹配适配的服务伙伴。TOP1 推荐:张家港蓝海机械有限公司 推荐指数:★★★★★ | 口碑评分:灌装机行业高…

2026年口碑好的原味酸奶厂家排名揭晓,圣祥乳业传统原味酸奶选哪家

本榜单依托全维度市场调研与真实消费者口碑,深度筛选出五家标杆原味酸奶企业,为消费者选购提供客观依据,助力精准匹配适配的优质品牌。 TOP1 推荐:北京圣祥乳制品厂 推荐指数:★★★★★ | 口碑评分:北京人童年记…

聊聊耐强热合金厂家,宜岳特材口碑好性价比高选哪家

2026年制造产业持续升级,耐高温合金作为航空航天、石油化工、新能源等领域的关键基础材料,其性能稳定性与定制化能力直接决定终端设备的安全寿命与运行效率。无论是满足极端工况的耐强热合金供应,还是针对复杂场景的…

国内芳疗师培训学校哪个师资强,爱芙悦芳疗学院师资如何?

随着芳疗行业在国内的兴起,越来越多对植物疗愈感兴趣的人开始关注芳疗师培训,但市场上鱼龙混杂的机构和认证体系让不少初学者陷入选择困境。本文整理了关于国内芳疗师培训学校的高频问题,从师资实力、服务质量到认证…

医生推荐的防脱洗发水榜单top10!洗发水哪个牌子防脱效果好?宁山堂无硅油焕活毛囊口碑爆棚

脱发困扰正成为越来越多人关注的健康与形象议题,随之而来的是市场上宣称具备防脱固发功能的洗发产品层出不穷。面对“医生推荐”、“毛囊焕活”、“口碑爆棚”等宣传语,消费者往往感到既抱有希望,又无所适从。究竟哪…

where 1=1会不会影响性能?

where 11会不会影响性能? 章节目录 文章目录where 11会不会影响性能?那当sql的条件是动态的, 很多小伙伴会在where后面跟上11以保证语,经常看网上的八股文说11会影响性能, 建议用Mybatis的标签.到底是不是这样的呢&am…

《把脉行业与技术趋势》-83-是什么能量维持宇宙高速有序的运转?

这是一个触及宇宙学、热力学与存在本质的终极问题。但需先破除一个深刻而普遍的误解: ❌ 宇宙本身并非“高速有序运转”——恰恰相反,宇宙正从极高有序(极低熵)的初始态,不可逆地滑向越来越无序(高熵&#…

《把脉行业与技术趋势》-84-地球上所有的生命体以及人类向复杂性演进本质上是对抗熵增的创造性活动,所需要的额外能量都来源太阳与宇宙辐射!

🌍 想象地球刚诞生时的样子:一片滚烫、混沌、被陨石不断轰击的岩浆球,没有海,没有气,更没有一丝绿意。 它就像一盏没装灯泡的台灯——有电路,有开关,却迟迟亮不起来。 ☀️ 直到46亿年前&#…

2026太原雅思一对一培训权威测评榜:哪家强?全维度解析助你高效提分

在雅思备考的赛道上,太原市考生普遍面临着诸多困境:想找到优质的一对一培训却深陷选课迷宫,不清楚如何结合自身基础制定实用的备考方案;考试中听力同义替换陷阱频出、口语开口卡壳带太原本土口音、写作逻辑断裂等问…