上海交大团队让AI机器人拥有视觉预见力

这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上,论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者,其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下,如果你的机器人助手在帮你收拾房间时,能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时,它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节,上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子,它们只能看到眼前的东西,然后做出相应的动作。但问题在于,这种"走一步看一步"的方式让机器人的学习效率很低,就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现,如果让机器人能够预见未来的画面,就像给它装上了"预言眼镜",它的学习能力会大幅提升。

然而,让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样,各种任务混在一起反而效果不佳。而且,现有的机器人往往在学习动作技能后,就忘记了如何理解和执行复杂的语言指令,就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis,这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理,让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来,同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术,这些查询就像是机器人大脑中的"动作侦探",专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时,这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作,然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是,Mantis采用了一种渐进式的训练方法,就像教孩子学习一样,先从简单的开始,逐步增加难度。训练分为三个阶段:首先让机器人通过观看大量人类操作视频学会预测未来画面,这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据,让它学会将预测能力与实际动作结合起来。最后加入语言理解训练,确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率,研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关",它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时,比如抓取一个易碎的物品,系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时,系统会自动降低计算强度,从而将推理计算量减少了50%,同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是,Mantis展现出了显著更快的学习速度,传统的视觉预测方法需要十几个训练周期才能达到的效果,Mantis在几个周期内就能实现。

在真实世界的测试中,研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识,比如当你说"把杯子放到泰勒·斯威夫特身上"时,机器人需要知道泰勒·斯威夫特是谁,并在照片中找到她。第二个场景测试基础推理能力,比如"把熊放到数字(3+5)上",机器人需要计算出结果是8。第三个场景测试意图理解,比如当你说"我饿了,你能帮忙吗?"时,机器人需要理解你是想要食物,然后去拿面包。

测试结果显示,Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时,Mantis表现出了强大的泛化能力,而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现,视觉预见模块的确能显著提升动作学习效果,而其中的残差连接设计(一种让信息能够"跳跃传递"的技术)对于捕捉潜在动作信息至关重要。更有趣的是,使用人类操作视频进行预训练比从零开始训练效果更好,这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然,这项研究也有一些局限性。在真实世界的操作中,机器人偶尔会出现轻微的动作回退,这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示,未来将致力于整合更丰富的输入信息,比如3D点云数据,并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路,证明了通过巧妙的系统设计,可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来,具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理,从工厂生产到服务行业,这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑,为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1:Mantis的核心技术优势是什么?

A:Mantis的核心优势在于"解耦视觉预见"技术,它巧妙地将"看未来"和"做动作"两个任务分离处理,同时保持有效协作。这就像把原本捆绑的绳子分开,让每项任务都能发挥最佳效果,从而大幅提升机器人的学习效率和操作精度。

Q2:Mantis相比其他机器人系统有什么实际表现优势?

A:Mantis在LIBERO测试中达到96.7%成功率,超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升,传统方法需要十几个训练周期的效果,Mantis几个周期就能实现。在真实场景测试中,特别是处理新指令时,Mantis表现远优于当前最好的开源模型π0.5。

Q3:Mantis如何平衡计算效率和性能?

A:Mantis采用"自适应时序集成"技术,像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性,简单移动时自动降低计算强度。这种设计将推理计算量减少50%,同时保持相同任务成功率,大大提升了实用性。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1165241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于flask的电影信息网站的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着互联网技术的快速发展,电影信息网站成为用户获取影视资讯的重要渠道。基于Flask框架的电影信息网站设…

对话机器人如何“看人下菜“:NewMind AI发现大模型的巨大隐患

这项由土耳其伊斯坦布尔NewMind AI公司的Yusuf Celebi、Mahmoud El Hussieni和Ozay Ezerceli三位研究者共同完成的研究于2025年11月21日在arXiv平台发表,论文编号为arXiv:2511.17220v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。研究团队开发了一个名为P…

Python flask django冰雪大世界管理平台 滑雪场门票预约及装备租赁系统

目录冰雪大世界管理平台:滑雪场门票预约及装备租赁系统关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!冰雪大世界管理平台:滑雪场门票预约及装备租赁系统 该…

Python flask django大学生社团管理系统

目录 大学生社团管理系统摘要 关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 大学生社团管理系统摘要 基于Python的Flask或Django框架开发的大学生社团管理系统,旨在通…

港中大联合研究揭示:AI视觉语言模型存在严重安全漏洞

这项由香港中文大学徐强教授团队联合北京理工大学、华为诺亚方舟实验室共同完成的研究,于2025年1月发表在计算机安全领域的顶级会议上。有兴趣深入了解的读者可以通过论文编号arXiv:2511.16110v1查询完整论文。在人工智能快速发展的今天,那些能够同时理解…

OPPO AI团队发布O-Mem:让AI助手拥有真正的“记忆“

这项由OPPO AI Agent团队发表于2025年11月的研究论文,首次提出了名为O-Mem的全新记忆框架系统。有兴趣深入了解的读者可以通过arXiv:2511.13593v2查询完整论文。这个系统的突破性在于让AI助手能够像人类一样,通过持续的互动来建立对用户的深度理解&#…

Java计算机毕设之基于springboot的大学生在线考试平台(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

罗切斯特大学团队破解文字密集型视频理解难题

这项由美国罗切斯特大学的唐云龙(Yolo Yunlong Tang)等研究人员与索尼集团公司、MIT-IBM Watson AI实验室合作完成的研究,发表于2025年11月的arXiv预印本平台(论文编号:arXiv:2511.17490v1)。感兴趣的读者可…

Python flask django的商城购物的网站

目录Flask与Django商城网站开发对比关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!Flask与Django商城网站开发对比 Flask和Django是Python生态中两种流行的Web框架,适用…

Java毕设项目:基于springboot的大学生在线考试平台(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

NYU朗格尼医学中心研究:小而专业的AI医生竟然完胜通用AI巨擘!

这项由纽约大学朗格尼医学中心江薰伊、陈安琪等研究团队与纽约大学库朗数学科学研究所、计算与数据科学学院等多个机构合作完成的突破性研究,发表于2025年11月17日的arXiv预印本平台(论文编号:arXiv:2511.13703v1)。研究团队包括来…

Python flask django茶园文化交流平台的设计

目录茶园文化交流平台的设计摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!茶园文化交流平台的设计摘要 茶园文化交流平台基于Python的Flask和Django框架开发,旨在…

Python flask django高校助奖学金管理系统

目录高校助奖学金管理系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!高校助奖学金管理系统摘要 高校助奖学金管理系统基于Python的Flask或Django框架开发,旨在…

救命神器8个AI论文写作软件,专科生搞定毕业论文+格式规范!

救命神器8个AI论文写作软件,专科生搞定毕业论文格式规范! 论文写作的救星,AI 工具如何改变你的学术之路 在当今快节奏的学习生活中,专科生们常常面临一个共同难题——毕业论文的撰写。面对繁重的课程压力和对学术规范的不熟悉&…

Python flask django 中小学智慧校园管理系统

目录中小学智慧校园管理系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!中小学智慧校园管理系统摘要 智慧校园管理系统基于Python Flask或Django框架开发,旨在通…

UNC团队“零数据“突破:AI智能体从无到有自我进化的奇迹

这项由北卡罗来纳大学教堂山分校的夏鹏、曾凯德、刘嘉琪,以及Salesforce研究院的秦灿、斯坦福大学的吴方等团队联合完成的研究发表于2025年1月,论文编号为arXiv:2511.16043。有兴趣深入了解的读者可以通过该编号查询完整论文。在人工智能的世界里&#x…

Python flask django 便捷私人牙科诊所信息系统

目录Python Flask/Django 便捷私人牙科诊所信息系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!Python Flask/Django 便捷私人牙科诊所信息系统摘要 该系统基于Python的Fla…

新加坡国立大学团队让机器人拥有“时空眼“

这项由新加坡国立大学计算学院的周翰宇和李锦熙教授,以及华中科技大学人工智能与自动化学院的马传昊共同完成的研究,发表于2025年11月21日的arXiv预印本平台,论文编号为arXiv:2511.17199v1。有兴趣深入了解的读者可以通过这个编号查询完整论文…

UNC与FieldAI联手:让AI也能用“草图预演“来创作更逼真的物理视频

这项突破性研究由北卡罗来纳大学教堂山分校的黄懿东、王尊、林翰、张悦、班萨尔莫希特教授,联合FieldAI公司的金东基、沙耶根奥米德沙菲,以及南洋理工大学的尹在宏教授共同完成,发表于2025年11月的arXiv预印本平台,论文编号为arXi…

Python flask django 最美乡村生态环保知识学习知识科普平台的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着生态文明建设的推进,乡村环保知识的普及成为可持续发展的重要环节。基于Python的Flask和Django框架&a…