具身智能资源汇总:机器人学习数据集,在线体验世界建模模型,英伟达/字节/小米等最新研究论文

如果说过去十年人工智能的主战场在「看懂世界」和「生成内容」,那么下一阶段的核心问题正在转向一个更具挑战性的命题:AI 如何真正进入物理世界,并在其中行动、学习与进化。在与此相关的研究与讨论声中,具身智能一词频繁出现。

顾名思义,具身智能并非传统的机器人,而是强调 Agent 与环境交互在感知—决策—行动的闭环中形成智能。在这一视角下,智能不再只存在于模型参数或推理能力中,而是深度嵌入到传感器、执行器、环境反馈与长期学习之中。机器人、自动驾驶、Agent 乃至通用人工智能(AGI)的讨论,都被纳入这一框架。

正因如此,具身智能成为近两年全球科技巨头与顶级研究机构高度关注的方向。特斯拉 CEO 埃隆·马斯克多次强调,人形机器人 Optimus 的意义不亚于自动驾驶;英伟达创始人黄仁勋将 Physical AI 视为继生成式 AI 之后的下一波浪潮,并持续加码机器人仿真与训练平台;李飞飞、Yann LeCun 等围绕空间智能、世界模型等细分领域持续产出高质量的前沿分析与成果;OpenAI、Google DeepMind、Meta 也在基于多模态模型、强化学习等技术探索智能体在真实或近真实环境中的学习能力。

在此背景下,具身智能不再只是单一模型或算法的问题,而逐渐演化为一个由数据集、仿真环境、基准任务与系统性方法共同构成的研究生态。为了帮助更多读者快速理解这一领域的关键脉络,本文将系统整理并推荐一批具身智能相关的高质量数据集、在线教程、论文,为进一步学习和研究提供参考。

数据集推荐

1

BC-Z 机器人学习数据集

预估大小:32.28 GB

下载地址:https://go.hyper.ai/vkRel

这是一个由谷歌、 Everyday Robots 、加州大学伯克利分校和斯坦福大学共同开发的大规模机器人学习数据集,包含了超过 25,877 个不同的操作任务场景,涵盖了 100 种多样化的操作任务。这些任务通过专家级的远程操作和共享自主过程来收集,涉及 12 个机器人和 7 名不同的操作员,累计了 125 小时的机器人操作时间。数据集支持训练一个 7 自由度的多任务策略,该策略可以根据任务的语言描述或人类操作视频来调整,以执行特定的操作任务。

2

DexGraspVLA 机器人抓握数据集

预估大小:7.29 GB

下载地址:https://go.hyper.ai/G37zQ

该数据集由 Psi-Robot 团队创建,包含 51 个人类演示数据样本,用于了解数据和格式,以及运行代码体验训练过程。其研究背景源于灵巧抓取在杂乱场景下的高成功率需求,特别是在未见过的物体、光照及背景组合下实现超过 90% 的成功率,此框架采用预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为低层行动控制器,其创新之处在于利用基础模型实现强大的泛化能力,并使用基于扩散的模仿学习获取灵巧行动。

3

EgoThink 第一人称视角下

视觉问答基准数据集

预估大小:865.29 MB

下载地址:https://go.hyper.ai/5PsDP

该数据集是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集,包含 700 张图像,涵盖了 6 个核心能力,细分为 12 个维度。其图像来源于 Ego4D 第一人称视频数据集的采样图片,为了确保数据的多样性,每个视频最多只采样 2 张图片。在数据集构建过程中,只选择了质量较高且能够清晰展现第一人称视角思维的图片。EgoThink 的应用领域广泛,特别是在评估和提升 VLMs 在第一人称视角任务中的性能,为未来的具身人工智能和机器人研究提供了宝贵的资源。

4

EQA 问答数据集

预估大小:839.6 KB

下载地址:https://go.hyper.ai/8Uv1o

EQA 全称 Embodied Question Answering,是一个基于 House3D 的视觉问答数据集。在环境中任意位置的 agent 在得到一个问题后,能够自己在环境中寻找有用的信息并对该问题作出回答。比如:Q: 汽车是什么颜色的?为了回答这个问题,agent 必须首先通过智能导航来探索环境,从第一人称视角收集必要的视觉信息,然后回答问题:橙色。

5

OmniRetarget 全域机器人

运动重映射数据集

预估大小:349.61 MB

下载地址:https://go.hyper.ai/IloBI

这是由亚马逊联合麻省理工学院、加利福尼亚大学伯克利分校等机构发布的一个用于类人机器人全身运动重映射的高质量轨迹数据集,包含 G1 仿人机器人与物体及复杂地形交互时的运动轨迹,涵盖机器人携物运动、地形行走及物体 – 地形混合交互三类场景。由于许可限制,公开的数据集中不包含 LAFAN1 的重映射版本,分为三个子集,总计约 4 小时运动轨迹数据,具体构成如下:

* robot-object:机器人携带物体的运动轨迹,源自 OMOMO 3.0 数据;

* robot-terrain:机器人在复杂地形上的运动轨迹,由内部 MoCap 采集生成,时长约 0.5 小时;

* robot-object-terrain:同时涉及物体与地形交互的运动轨迹,时长约 0.5 小时。

此外,该数据集另含 models 目录,提供 URDF 、 SDF 与 OBJ 格式的可视化模型文件,用于展示而非训练。

查看更多高质量数据集:https://hyper.ai/datasets

教程推荐

具身智能(Embodied AI)的研究确实往往涉及多个模型和模块的组合,以实现对物理世界的感知、理解、规划和行动。其中便包含世界模型、推理模型,本文主要推荐以下两个最新开源的模型。

查看更多优质教程:https://hyper.ai/notebooks

1

HY-World 1.5:

交互式世界建模系统框架

HY-World 1.5(WorldPlay)是腾讯混元团队发布的首个具有长期几何一致性的开源实时交互世界模型。该模型通过流式视频扩散技术实现实时交互世界建模,解决了当前方法中速度与内存之间的权衡问题。

在线运行:https://go.hyper.ai/qsJVe

2

vLLM+Open WebUI 部署

Nemotron-3 Nano

Nemotron-3-Nano-30B-A3B-BF16 是由 NVIDIA 从零开始训练的一款大型语言模型(LLM),旨在作为一个同时适用于推理与非推理任务的统一模型,主要用于构建 AI 智能体系统、聊天机器人、RAG(检索增强生成)系统 以及其他各类 AI 应用。

在线运行:https://go.hyper.ai/6SK6n

论文推荐

1

RBench

论文题目Rethinking Video Generation Model for the Embodied World

研究团队:北京大学、字节跳动 Seed

查看论文:https://go.hyper.ai/k1oMT

研究简介:

该团队提出了一个全面的机器人视频生成评测基准 RBench,覆盖 5 类任务领域 和 4 种不同机器人形态,并通过一系列可复现的子指标,从任务层面的正确性和视觉保真度两个维度进行评估,具体包括结构一致性、物理合理性以及动作完整性等方面。对 25 个具有代表性的视频生成模型的评测结果显示,当前方法在生成符合物理真实感的机器人行为方面仍存在显著不足。此外,RBench 与人工评估之间的 Spearman 相关系数达到 0.96,验证了该基准在衡量模型质量方面的有效性。

此外,该研究还构建了 RoVid-X——目前规模最大的开源机器人视频生成数据集,包含 400 万条标注视频片段,覆盖数千种任务,并辅以全面的物理属性标注。

2

Being-H0.5

论文题目:Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

研究团队:BeingBeyond

查看论文:https://go.hyper.ai/pW24B

研究简介:

该团队提出了一个基础级的视觉-语言-动作(Vision-Language-Action,VLA)模型 Being-H0.5,旨在实现跨多种机器人平台的强泛化具身能力。现有的 VLA 模型往往受限于机器人形态差异大、可用数据稀缺等问题。针对这一挑战,其提出了一种以人为中心的学习范式,将人类交互轨迹视为物理交互领域的通用「母语」。

同时,该团队还发布了 UniHand-2.0,这是目前规模最大的具身预训练方案之一,涵盖 30 种不同机器人形态、超过 35,000 小时的多模态数据。在方法层面,其提出了一个统一动作空间(Unified Action Space),将不同机器人的异构控制方式映射到语义对齐的动作槽位中,使低资源机器人能够从人类数据以及高资源平台中快速迁移和习得技能。

3

Fast-ThinkAct

论文题目:Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

研究团队:英伟达

查看论文:https://go.hyper.ai/q1h7j

研究简介:

该团队提出了一种高效的推理框架 Fast-ThinkAct,通过可语言化的潜在推理机制,在保证性能的同时实现更加紧凑的规划过程。Fast-ThinkAct 通过从教师模型中蒸馏潜在 CoT,学习高效推理能力,并在偏好引导目标函数的驱动下,对操作轨迹进行对齐,从而将语言层面的规划能力与视觉层面的规划能力共同迁移到具身控制中。

大量覆盖多种具身操作与推理任务的实验结果表明,Fast-ThinkAct 在保持长时序规划能力、少样本适应能力以及失败恢复能力的同时,相较于当前最先进的推理型 VLA 模型,推理延迟最高可降低 89.3%,并取得了显著的性能表现。

4

JudgeRLVR

论文题目:JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

研究团队:北京大学、小米

查看论文:https://go.hyper.ai/2yCxp

研究简介:

该团队提出了一种「先判别、再生成」的两阶段训练范式 JudgeRLVR,在第一阶段,团队训练模型对具有可验证答案的解题响应进行判别与评估;在第二阶段,以该判别模型为初始化,使用标准的生成式 RLVR 对同一模型进行微调。

与在相同数学领域训练数据上使用的 Vanilla RLVR 相比,JudgeRLVR 在 Qwen3-30B-A3B 上实现了更优的质量–效率权衡:在域内数学任务上,平均准确率提升约 3.7 个百分点,同时平均生成长度减少 42%;在域外基准测试中,平均准确率提升约 4.5 个百分点,显示出更强的泛化能力。

5

ACoT-VLA

论文题目:ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

研究团队:北京航空航天大学、AgiBot

查看论文:https://go.hyper.ai/2jMmY

研究简介:

该团队首先提出了 Action Chain-of-Thought(ACoT,动作思维链),将推理过程本身建模为一系列结构化的粗粒度动作意图,用于引导最终的策略生成,随后进一步提出 ACoT-VLA,一种将 ACoT 范式具体化的新型模型架构。

在具体设计上,其引入了两个互补的核心组件:显式动作推理器(Explicit Action Reasoner,EAR) 与 隐式动作推理器(Implicit Action Reasoner,IAR)。其中,EAR 以显式的动作级推理步骤形式,提出粗粒度的参考轨迹;而 IAR 则从多模态输入的内部表示中提取潜在的动作先验。二者共同构成 ACoT,并作为条件输入作用于下游动作头,从而实现具备落地约束的策略学习。

在真实世界与仿真环境中的大量实验结果表明,该方法展现出显著优势,在 LIBERO、LIBEROPlus 和 VLABench 基准上分别取得了 98.5%、84.1% 和 47.4% 的成绩。

查看最新论文:https://hyper.ai/papers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1205300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年北京地区处理合同纠纷律师事务所排名,普辉律所口碑出众值得选

在商业活动与日常生活中,合同是保障权益、规范行为的核心依据,但合同纠纷往往如隐藏的暗礁,稍有不慎便可能引发经济损失或权益受损。面对市场上众多提供合同纠纷法律服务的律师事务所,如何挑选专业可靠、能切实解决…

不用HX也能玩转XGX8500?咱们今天来点硬核的。前两天被基恩士的技术支持怼了句“建议购买正版HX软件“,当场血压就上来了——都是打工人,谁还没点技术执念呢

LabVIEW调用 基恩士 XGX8500相机实现画面嵌入。 源程序开放,方法开放。 基恩士软件HX软件授权比较贵,此方案比较完美。先甩结论:用LabVIEW的IMAQdx驱动直接抓取相机画面,通过动态链接库与XGX8500通讯,最终实现画面嵌入…

【建议收藏】一文搞懂大模型上下文工程:提示词工程的进阶指南

文章介绍了大模型上下文工程的基础概念,解析其与提示词工程的互补关系。上下文工程由三大组件构成:上下文获取与生成(提示词工程、外部知识检索、动态上下文组装)、上下文处理(长上下文处理、多模态整合等)…

收藏!大厂集体加码AI赛道,零基础可入的大模型训练师,年薪最高36W+

据央广网12月17日报道,腾讯对大模型研发架构进行重大升级,新组建AI Infra部、AI Data部及数据计算平台部三大核心部门。这一动作信号明确,腾讯正全力押注AI赛道,通过架构优化夯实核心竞争力,抢占行业先机。 事实上&am…

7个高效AI论文生成软件,LaTeX模板自动处理排版细节

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

7大AI辅助论文写作工具,配合LaTeX模板实现专业排版

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

500与1000百联卡分别回收多少,揭秘当前百联卡回收价格表

闲置的百联卡如何变现?不同面值的回收价格是否有差异?这是很多持有百联卡的朋友都会遇到的问题。百联卡作为常用消费卡券,虽覆盖线下众多商户,但闲置后若不能及时处理,就会造成资源浪费。其中,500和1000面值的百…

丹东电气自动化哪家口碑好?2026精选厂家推荐,电气自动化/施耐德电气/工控产品/中低压电气,电气自动化厂商推荐

在工业制造与基础设施升级的浪潮中,电气自动化技术已成为保障设备稳定运行、提升生产效率的核心支撑。对于丹东及东北地区的企业而言,选择一家技术实力强、服务响应快、口碑可靠的电气自动化供应商,直接关系到项目落…

7个智能论文生成工具盘点,配合LaTeX模板实现精准排版

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

Kafka高性能揭秘:零拷贝、顺序写与页缓存,千万级吞吐量的底层原理深度剖析

聊一个老生常谈,但 90% 的人只知其一不知其二的话题:Kafka 为什么这么快? 很多同学在面试时都能背出那几句八股文:“零拷贝、顺序写、页缓存”。但如果面试官追问一句:“你能在 Java 里写出零拷贝的代码吗&#xff1f…

大专java找工作好难,转行做什么?

这是小红书上一位上海的Java程序员失业想转行的分享贴。 Java开发的就业市场正在经历结构性调整,竞争日益激烈 传统纯业务开发岗位(如仅完成增删改查业务的后端工程师)的需求,特别是入门级岗位,正显著萎缩。随着企业…

7款AI驱动的论文写作助手,搭配LaTeX模板自动规范格式

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

2026年真空螺旋干燥机评测:这家批发厂家脱颖而出,干燥设备/盘式干燥机/污泥干化,真空螺旋干燥机门店口碑排行

评测背景 随着全球工业领域对节能环保与生产效率要求的持续提升,真空螺旋干燥机作为化工、制药、食品等行业的核心设备,其技术迭代与市场格局正经历深刻变革。本评测基于第三方技术视角,选取国内主流真空螺旋干燥机…

7个最佳AI论文创作工具,LaTeX模板让格式调整更简单

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

2025年市面上可靠的粒子计数器供应商联系电话,手持式尘埃粒子计数器/尘埃粒子测试仪/台式粒子计数器供应商哪家好

随着工业4.0与智能制造的深化推进,洁净环境监测需求持续攀升,粒子计数器作为空气洁净度检测的核心设备,其市场热度与竞争强度同步提升。据第三方机构统计,2024年中国粒子计数器市场规模突破25亿元,年复合增长率达…

解决 IntelliJ IDEA 中 Maven 管理界面不是层级结构的问题

解决 IntelliJ IDEA 中 Maven 管理界面不是层级结构的问题

2026 AI领域项目复现平台实力榜单:深度体验与专业评测

在人工智能技术狂飙突进的当下,项目复现已成为连接理论研究与产业落地的关键桥梁。从顶会论文的算法验证,到大模型微调的工程实践,复现工作的效率直接决定了技术迭代的速度。然而,环境配置繁琐、算力资源短缺、数据…

推荐7个高效AI论文生成器,LaTeX模板助你一键搞定格式

工具快速对比(7大AI论文工具TOP排名) 这7款工具覆盖论文写作全流程,各有亮点: Aibiye:智能成文与无限改稿,适合初稿优化(��)。 Aicheck:一键生…

hug_face#1 智能体推理|多模态|语音识别

with gemini🔍 大语言模型的智能体推理:从静态到动态的范式转变研究主题:《Agentic Reasoning for Large Language Models》核心突破:- 提出从静态LLM推理向智能体推理的范式转变,构建了包含基础层(单智能体…