编者按:十年深耕,十篇精粹。数据已成为核心生产要素,《大数据》见证技术突破与政策赋能的双向奔赴。本次甄选十篇文章,涵盖高被引理论成果、政策落地研究与社会前沿热点,既是学科发展的缩影,更是产业实践的指南。即日起逐篇推送,邀您回溯十年积淀,共探数据要素市场化、数智融合的未来新篇!敬请关注。
基于多模态大模型的具身智能体研究进展与展望
摘 要 具身智能体指能够根据指令完成某种或多种任务并且具备与物理环境交互能力的智能实体。其在服务机器人、智能教育、辅助医疗等领域具有巨大的潜在应用,是实现通用机器人的重要途径之一。随着多模态大模型的发展,具身智能体具备了更强的语言理解、推理判断和环境感知能力,极大地推动了该领域的发展。近年来,具身智能体领域涌现出许多优秀的研究工作,但缺乏系统的调查评述。为了帮助研究者更全面地了解这一领域,对具身智能体的研究进行了深入调研与展望。首先,介绍了多模态大模型,其次回顾了常用数据集和用于构建具身智能体的物理载体。然后,回顾了具身智能体的3个关键研究方向:具身大模型、高级任务规划和低级动作控制。最后,总结了具身智能体领域面临的挑战和存在的局限性,并展望了未来的发展方向。该综述为研究者提供了有价值的参考,旨在促进具身智能体领域的进一步发展与创新。
关键词 具身智能体; 多模态大模型; 机器人; 视觉语言模型; 具身智能
引用格式:
赵博涛, 亢祖衡, 瞿晓阳, 等. 基于多模态大模型的具身智能体研究进展与展望[J]. 大数据, 2025, 11(3): 108-138.
Zhao B T, Kang Z H, Qu X Y, et al. Review and emerging trends of embodied agent based on multimodal large language models[J]. Big Data Research, 2025, 11(3): 108-138.
0
引言
具身智能体是跨学科领域的重要研究方向,具备与物理环境交互的能力,通过传感器、执行器和物理形态与环境互动。具身智能体的研究范畴包括自主机器人、多模态感知、强化学习等,具有在服务机器人、智能教育和医疗辅助等领域的应用潜力。其发展历史从人工智能早期探索至今,早期研究集中在虚拟世界的计算推理能力,而近期多模态大模型(MLLM)的出现为具身智能体的发展带来新突破。MLLM能处理多种数据类型,实现深层次语义理解和跨模态推理,提升模型在多模态任务中的表现。MLLM的代表模型包括CLIP、DALL-E等,展现出环境感知、指令理解和推理判断能力,为具身智能体发展注入新动力。具身智能体需具备环境感知、长程任务规划和短程动作控制能力,MLLM在这些方面展现出优势,推动具身智能体在复杂现实场景中的应用。本文全面综述基于MLLM的具身智能体,包括多模态大模型发展现状、具身智能体数据集、物理载体、最新研究进展、高级任务规划应用、低级动作控制研究,以及面临的挑战和未来发展趋势。
1
多模态大模型
视觉语言模型通过联合学习图像和文本特征,建立视觉与语言之间的关联,应用于图像描述生成、视觉问答和图文检索等任务。常见的有视觉变换器(ViT)和对比语言-图像预训练(CLIP)模型,以及BLIP-2、LLaVA、Flamingo、KOSMOS-1和KOSMOS-2等模型。这些模型大多依赖图文配对数据进行训练,但存在数据获取困难和影响上下文处理能力的问题。国产Qwen-VL系列模型通过预训练和多任务训练提升性能,MiniCPM系列实现边缘设备部署。同时提到了GPT-4o、Gemini-Pro-1.5、Claude 3.5-Sonnet等闭源大模型。
2
具身智能体领域主要数据集
具身智能体领域中的关键数据集支持多模态、多任务的训练与评测,覆盖视觉、语言、动作和环境交互等信息。Matterport3D数据集提供了RGB-D图像和全景视图,支持机器人导航和环境理解。RoboNet数据集包含多种机械臂的操作数据,Dex-Net专注于抓取任务,提供物体模型和抓取策略数据。Ego4D是一个第一人称视角的视频数据集,推动自我中心视频理解和具身智能研究。ALFRED数据集用于训练机器人执行基于自然语言指令的任务。随着具身智能领域的快速发展,更多大规模、高质量的数据集如Open X-Embodiment、RoboMIND、ARIO和AgiBot World等涌现,为通用机器人策略模型的训练与评测提供重要支持,推动技术进步和通用人工智能机器人的发展。
3
物理载体
具身智能体通过物理形态与环境交互以完成任务,其物理载体包括机械臂、灵巧手、轮式无人车、无人机、四足机器人和人形机器人。机械臂广泛应用于工业和医疗,具有多个关节和执行器,依赖正逆运动学计算和动力学理论进行控制。灵巧手模拟人手精细运动,具有多自由度和传感器,适用于精密操作和微创手术。轮式无人车结构简单、能效高,适用于工业自动化和自主导航。无人机具有高度灵活性,用于数据采集和环境监测,但受限于动态环境。四足机器人模拟动物运动,适应复杂地形,用于工业巡检和救援。人形机器人模仿人类动作,适用于自然交互和执行人类环境任务。多模态大模型的应用提升了这些物理载体的交互能力、泛化能力和自主决策能力。
4
具身大模型研究进展
具身智能体需具备视觉感知、指令理解和自我感知能力以执行复杂交互和动作策略。VLM虽支持视觉感知和语言理解,但在感知自身状态和生成动作指令方面存在局限。具身大模型作为解决方案,继承多模态大模型能力的同时,能感知自身状态并生成动作策略。具身大模型研究进展显著,如谷歌的RT-1模型通过端到端训练估计动作策略,RT-2引入PaLM-E模型增强泛化能力,RT-X在大规模数据集上训练提升性能,RT-H模型通过层级查询串行执行任务。具身大模型结构与人脑信号处理方式相似,通过高级皮层处理抽象任务,传递至低级区域执行具体任务。主流框架通过多模态编码器映射信息,大语言模型输出特征,策略头输出动作参数。EmbodiedGPT利用ChatGPT生成子指令,训练多模态大模型实现精确动作规划。RoboFlamingo验证微调预训练VLM的有效性,GR-1和GR-2通过视频-文本数据预训练提升性能。还探索了强化学习与具身大模型的结合,如SayCan模型和Q-Transformer。具身大模型训练依赖大量数据,研究者提出应对数据不足的方法,如AutoRT团队利用VLM和LLM生成任务和运动策略。SARA-RT提出线性复杂度自注意力机制提升推理效率,RT-Trajectory引入RGB轨迹图提升泛化能力。尽管具身大模型为具身智能体实现提供技术路径,但训练成本高,主要聚焦于机械臂等操作领域,推理速度尚未满足流畅动作执行需求。
5
高级任务规划
在执行复杂任务时,人类通过分解任务逐步完成,具身智能体同样需要将高级任务分解为子任务以实现目标。具身大模型能够直接生成子任务执行的动作策略,并预先定义子任务执行的工具或其他辅助元素。传统的高级任务规划依赖符号规划方法和搜索算法,但在动态变化和复杂场景中存在局限性。多模态大模型结合视觉、语言和其他感知数据,实现从感知、理解到执行任务的全流程能力,通过链式思维等推理方法将高层次任务指令分解为逻辑步骤,生成合理的行动计划,适应动态变化的环境。
多模态大模型在高级任务规划中展现出优势,但也面临挑战,如子任务分解的可行性、大模型处理长任务序列时的记忆问题或信息丢失、大模型的幻觉问题等。研究人员从不同方面进行探索,包括提示工程、反馈优化、记忆或额外知识的引入、多智能体技术等。
提示工程通过精心设计提示词提升模型在特定任务中的表现,如将复杂任务分解转化为代码生成问题。反馈优化利用环境或用户的反馈信息提升具身智能体的高级任务规划能力,实现闭环系统。记忆或额外知识的引入利用智能体自身的记忆或额外的知识提升任务规划的准确性。多智能体技术引入多个智能体,使复杂任务能够被分解并分配给不同智能体协作完成。
总之,多模态大模型在具身智能体的高级任务规划中展现出潜力,但仍面临诸多挑战,需要从不同方面进行探索和优化。
6
动作控制
具身智能体的动作控制包括机械臂动作、双足行走和灵巧手的控制策略。机械臂动作控制通过逆向运动学计算关节角度和运动路径,实现物体抓取、移动和操作。研究中使用预定义工具、大语言模型与强化学习结合的方法,以及模仿学习来训练动作策略。双足行走控制通过精确调控双足运动实现平稳行走和姿态平衡,传统方法依赖动力学模型的力矩控制技术,而深度强化学习逐渐成为主流。灵巧手控制通过精确调控机械手关节和手指实现灵活抓取和操作,主要通过强化学习、模型驱动学习和模仿学习方法实现。多模态大模型的进步使得以灵巧手为载体的具身智能体逐步从理论走向实际应用。
7
挑战与机遇
具身智能体领域面临统一评价体系的挑战,现有评价体系零散且依赖仿真环境,需推出全面评价体系以公平评估能力。高质量数据集的缺乏限制了发展,人工遥操作和游戏环境数据收集是潜在解决方案。具身智能体需具备三维感知能力,3D视觉语言模型训练是提升空间信息理解的方法。复杂任务规划方面,大模型依赖统计概率,缺乏因果关系捕捉,需设计数据集和微调模型以增强能力。全身动作控制方面,端到端具身大模型控制缺乏数据和涉及多自由度控制,收集全身动作控制数据和融入物理规律是解决思路。算法效率和终端部署是大模型落地的挑战,需在提升推理速度的同时维持高精度。反思与进化能力是具身智能体的重要挑战,增量学习需平衡新旧数据和优化计算资源。随着研究者投入,这些挑战将逐步克服,推动技术发展和应用落地。
作者简介
赵博涛,男,平安科技(深圳)有限公司高级算法工程师,主要研究方向为深度学习、语音算法以及具身智能等。
亢祖衡,男,平安科技(深圳)有限公司高级算法工程师,主要研究方向为人工智能、声纹识别、信号处理、音乐生成、大模型等。
瞿晓阳,男,博士,平安科技前沿机器学习算法分组负责人,清华大学深圳国际研究生院校外导师,中国科学技术大学先进技术研究院校外导师,美国佛罗里达大学访问学者,主要研究方向为机器学习、大数据、体系结构、人工智能、高性能计算与存储等。
彭俊清,男,国家认证计算机系统架构设计师,平安科技(深圳)有限公司资深经理,高级人工智能算法研究员,主要研究方向为架构设计、云平台、AI系统建设等。
张旭龙,男,博士,平安科技(深圳)有限公司高级算法研究员,复旦大学计算机理学博士,主要研究方向为语音合成、语音转换、音频驱动虚拟人生成、音乐信息检索以及机器学习和深度学习方法在人工智能领域应用,担任清华大学深圳研究院以及中国科学技术大学先进技术研究院校外导师,目前是IEEE、中国自动化学会以及中国计算机学会会员,担任联邦数据与联邦智能专委会委员,2023年入选上海市东方英才计划青年项目。
王健宗,男,博士,平安科技(深圳)有限公司副总工程师,资深人工智能总监,联邦学习技术部总经理,智能金融前沿技术研究院院长。美国佛罗里达大学人工智能博士后,美国莱斯大学和华中科技大学联合培养博士,中国计算机学会资深会员,中国计算机学会大数据专家委员会委员,中国自动化学会联邦数据和联邦智能专业委员会副主任。主要研究方向为大模型、联邦学习和深度学习等。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~