AI 终于有了“人眼”?达摩院 NeurIPS’25 重磅:第一视角下的动态时空认知,大模型能打几分?

引言

在厨房手忙脚乱时,你问AI助手:“我煮的菜熟了吗?”——它却连已经煮了几分钟都记不得。现有多模态大模型(MLLMs)在动态第一视角场景中近乎“盲人”:认不出已经清洗过的碗;预测不了即将烧焦的锅;记不住3秒前剪刀位置…

浙大和达摩院重磅推出EOC-Bench——首个聚焦第一视角下「动态物体时空认知」的评测基准,用3277道灵魂拷问揭穿MLLMs的认知黑洞!

EOC-Bench共包含11类问题,3277条问答数据,包含四种类别的问答,及多种类型的评估方式。

一、痛点直击:为什么无法准确理解动态世界?

当前的视觉语言模型在大规模图文数据中学到的大多是基于静态视角的理解,缺乏对于动态世界的感知和推理能力。因此,当面对高动态第一视角场景的视频时,这些模型往往难以应用。

现有的评估基准主要测试物体的空间感知能力,比如桌子的长宽、房间的面积等静态物体属性,却对于动态操作场景却显得力不从心。例如(下图所示),在复杂且纷乱的厨房环境中,判断某个碗是否已经被清洗过,这种复杂交互操作的动态场景对模型的认知能力提出了巨大挑战。

EOC-Bench和现有相关Benchmark的比较

二、EOC-Bench如何重构认知评估?

一、 三种时间维度

  • Past:回溯历史状态(如:“水已经烧多久了?”)
  • Object State Retrospection 物体状态回溯
  • Object Location Retrospection 物体位置回溯
  • Object Relationship Evolution 物体关系回溯
  • Absolute Time Perception 绝对时间感知
  • Present:抵抗视觉欺骗(如:“看似在加热的锅——其实火已关”)
  • Immediate State Recognition 当前状态识别
  • Purpose and Function Inference 物体用途推理
  • Object Relationship 当前物体关系识别
  • Anomaly Perception 物体异常检测
  • Future:预判动态风险(如:“物体放在这里是否会有危险?”)
  • State Change Prediction 物体状态预测
  • Dynamic Relationship Prediction 动态物体关系预测
  • Trajectory and Motion Prediction 物体轨迹预测

EOC-Bench数据分布情况

二、多种评估体系

  • 混合问题:判断题/单选/多选/开放问答,模拟真实人机对话场景,典型示例如下:

  • 时序准确率评估:设计Multi-Scale Temporal Accuracy指标,精确灵活地衡量时间感知精度。通过对人工误差边界值的分析,设置阈值及阈值边界,得到时间维度的准确率计算公式:

通过设置不同的阈值,该指标在严格性和灵活性之间取得了平衡:较低的阈值要求精确的回答,而较高的阈值则允许回答的多样性。

三、评测结果

文中对20+个开源与闭源模型进行了评测,包括:

  • 闭源模型: GPT-4o, GPT-4o-mini, Gemini-2.0-flash。
  • 开源基础模型:Qwen系列、InternVL系列、VideoLLaMA系列、LLaVA系列等。
  • 物体级别的多模态大模型:VideoRefer、Osprey、SPHINX-V、ViP-LLaVA。

典型多模态大模型在EOC-Bench上的表现。最优的结果用橙色标记,灰色代表结果低于随机猜测

通过评测,作者发现模型在物体关系回溯(ORE)和绝对时间感知(ATP)两个指标上存在显著偏差,大多数指标低于随机猜测。在添加了时间戳的基础上,GPT-4o的表现依旧没有及格,这表明现有模型在感知和记忆时间变化的能力仍十分有限。

进一步,按不同类别的问题进行了评测:

典型多模态大模型在EOC-Bench不同人物类型上的表现:SCA(单选题),MCA(多选题),TF(判断题),OQ(开放问答题)

根据上述表格得到了以下结论:

小模型大多答不了多选题。许多模型在回答多项选择题(MCA)时面临挑战,分数往往低于随机猜测(以灰色标记表示)。这一问题在较小的模型中尤为突出,这些模型参数为7B或更少。作者推测,这些较小的模型在训练过程中已经过度拟合于简单的单项选择题,妨碍了它们根据说明处理多选题的能力。

很少的模型对时间敏感。OQ指标测量模型感知过去时间的能力,表明某些模型的表现低于随机猜测水平,仅有9/21。即使是最强的开源模型也仅得分24.02%,比随机猜测高出13.1%。这强调了大多数模型中缺乏的重要能力,而这在具身AI领域是必不可少的。

较大的模型更能处理好未来的预测。未来的预测任务需要结合常识推理和广泛的知识。随着模型规模的增加,其推理能力也随之提升。例如,具有3B、7B和72B参数的Qwen2.5-VL以及具有2B和7B参数的VideoLLaMA3在这些任务中的表现显著提高。这表明较大的MLLM更好地应对需要前瞻思维和预测推理的问题。

面向过去的问题对MLLM构成更大挑战。通过对类似问题类型的比较分析,作者发现模型在与过去事件相关的问题上总体表现较差。这种准确回忆和处理过去信息的困难在当前MLLM中普遍存在,表明其设计和训练中需要显著改进的领域。

为了评估不同帧数量对评估结果的影响,文章进一步评估了EOC-Bench中1帧、8帧和32帧的结果增益:

结果表明,闭源模型GPT-4o和Gemini-2.0-flash在从单帧输入转为32帧输入设置时表现出显著的性能提升,分别提高了24.6%和20.1%。这种改进特别明显体现在面向过去的任务中,改进幅度为49.2%和60.2%。这些发现强调了多帧推理在EOC-Bench中的关键作用,尤其是在记忆回溯任务中,从此前帧中访问信息的能力可以显著增强表现。其他开源模型,如InternVL2.5和VideoLLaMA3也表现出了相同的趋势。

四、错误分析

以表现最好的GPT-4o模型为例进行分析:

  • 感知错误。这种错误涉及当前帧中的感知问题,包括来自先前帧的干扰、对细节的关注不足、计数错误和帧内干扰。
  • 记忆错误。这种错误类型反映了对先前帧信息观察或回忆的不正确,包括来自当前帧的干扰和遗漏的观察,抽样帧不足以回答与记忆相关的问题。
  • 关系推理错误。这种错误涉及在感知或推断物体之间的简单关系时遇到困难。
  • 知识错误。这个类别涵盖了推理、常识和计算方面的错误。

在过去类别中,记忆错误占据主导地位,占错误的93%。这些主要是由于历史帧处理不足(73%)和当前帧干扰(17%)。剩下的10%是遗漏观察错误,这突显了固定帧采样策略的固有限制。

在当前类别中,感知错误占61%,其次是知识错误(22%)和记忆错误(7%)。值得注意的是,帧内干扰构成了感知错误的重要部分,揭示了模型在区域级别视觉感知上的限制及其对幻觉性伪影的易感性。

在未来类别中,大约59%的错误是知识相关问题,表明推理能力和常识理解的限制。

对于动态场景下时间感知准确性,文章进行了密度分析,分析结果如下:

从图中可以看出,人类回答的分布呈现出明显的峰值,随后迅速衰减,这表明大多数人类答案实现了最低错误率,只有偶尔出现较高不准确性的情况。相比之下,五个表现最好的模型GPT-4o、LLaVA-Video-72B、VideoLLaMA3-7B、Qwen2.5-VL-72B和NVILA-8B显示出更平缓的分布,具有更宽泛的扩散。这表明现有的模型在时间感知方面表现出更大的随机性和误差性

五、Leaderboard

此外,作者团队建立了leaderboard,快来试试你的模型表现如何吧。

六、总结

EOC-Bench旨在评估多模态大语言模型第一视角下的物体级认知能力。EOC-Bench在涉及动态以自我为中心互动的场景中全面评估MLLMs,包括过去、现在和未来三个时间维度。

为了确保高质量,EOC-Bench设计了多种题型的任务模式,并引入了多尺度时间准确率指标,以提高开放性问题的精确度。针对多种专有和开源模型进行的广泛评估显示,许多MLLMs在具身物体认知任务上面临挑战,特别是在回忆和处理过去信息以及绝对时间感知方面,希望EOC-Bench将推动开发能够理解更复杂和多样化的物理世界的模型的进步。

那么,如何系统的去学习大模型LLM?

作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTF 新手想入门上分?抓好这几个关键点就够了

CTF新手想入门拿分?吃透这几点 一、先搞懂:CTF 到底是啥?网安人为啥必须练? 很多新手问我,CTF不就是个比赛吗?没必要非得学?这话可就错了!CTF全称 Capture The Flag,就是…

【AI革命】一个模型顶仨!80亿参数Omni实现文本、图像、音频统一处理,大模型开发新思路!

在人工智能飞速发展的今天,大语言模型(LLM)已成为理解和生成文本的利器。然而,我们生活的世界本质上是多模态的——信息不仅通过文字传递,还通过图像、声音等多种媒介呈现。让AI同时理解并生成文字、图片和语音&#x…

【MATLAB例程】【空地协同】UAV辅助的UGV协同定位,无人机辅助地面无人车定位,带滤波,附MATLAB代码下载链接

文章目录程序介绍运行结果MATLAB源代码程序介绍 程序为UAV 辅助 UGV 的二维协同定位仿真框架,用于验证在低精度GNSS条件下空地协同的定位效果,引入空中平台(UAV)测距测角信息,对地面移动载体(UGV&#xff…

基于Cruise2019版及Matlab2018a的燃料电池功率跟随仿真模型探究及实践

燃料电池功率跟随cruise仿真模型!!!此模型基于Cruise2019版及Matlab2018a搭建调试而成,跟随效果很好,任务仿真结束起始soc几乎相同。 控制模型主要包括燃料堆控制、DCDC控制、驱动力控制、再生制动控制、机械制动等模块…

把设备参数翻译成老板听得懂的“利润语言”

制造业销售常常会犯一个错误:对工厂老板大谈“主轴转速12000rpm”“定位精度0.003mm”“支持五轴联动”……老板表面上点点头,心里却在想:“这跟我赚不赚钱有什么关系?”技术参数是工程师的语言,而利润才是老板的母语&#xff0c…

springboot+vue的舞蹈文化中心平台设计与实现_95quaxsf

目录摘要开发技术核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 舞蹈文化中心平台基于SpringBoot和Vue技…

‌安全自动化框架构建方法

一、核心理念:安全左移不是口号,是架构设计的起点‌ 在现代软件交付体系中,安全测试已从“上线前最后一道检查”演变为“开发流程的内置基因”。‌安全左移(Shift Left Security)‌ 是构建自动化框架的哲学基石&#…

程序员开发岗位求职难?这些优质出路值得一试

一、开发和程序员的核心痛点 1. 需求反复无常,加班成为常态 需求频繁变更:产品经理的一句话可能导致代码全盘推翻重写。例如,某后端开发工程师为一个用户登录功能反复修改了 23 版设计,每次都需重构大量代码。这种不确定性让开发…

Protein Kinase A Inhibitor (6-22), amide;TYADFIASGRTGRRNAI-NH2

一、基础性质英文名称:Protein Kinase A Inhibitor (6-22), amide;PKI (6-22) amide;TYADFIASGRTGRRNAI-NH₂ peptide中文名称:蛋白激酶 A 抑制剂(6-22)酰胺化片段;PKI 来源 17 肽激酶抑制域多肽…

【硬核干货】推荐系统学习路线大公开!20天Python基础+1个月实战+2个月论文复现,大模型时代不吃土!

噔噔蹬!小点来噜! 今天,小点为大家带来的是【推荐系统】方向的学习路线,推荐系统大家都应该比较熟悉,它并不隶属于我们影像、时序或者图结构数据中的某一类,相反,它是一个融合多类数据的交叉应用…

springboot+vue的英语学习平台_ja5h443a

目录系统架构与技术栈核心功能模块特色功能设计技术实现亮点应用场景与扩展性开发技术核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主…

新手入门 CTF 想稳拿分?吃透这几招,轻松起步

CTF新手想入门拿分?吃透这几点 一、先搞懂:CTF 到底是啥?网安人为啥必须练? 很多新手问我,CTF不就是个比赛吗?没必要非得学?这话可就错了!CTF全称 Capture The Flag,就是…

‌API安全测试最佳实践:构建数字时代的防护壁垒

在当今数字化浪潮中,API(应用程序接口)已成为软件系统的核心枢纽,承载着80%以上的数据交互。然而,API安全漏洞(如数据泄露或未授权访问)频发,导致企业年均损失超千万美元。作为软件测…

windows 台式机器开启 WIFI 热点功能

1. 首先需要买一个无线网卡(类似如下图) 2. 打开 cmd 窗口(以管理员运行) 3. 创建热点 输入以下命令创建热点(替换 热点名称 和 密码) netsh wlan set hostednetwork modeallow ssid热点名称 key密码 4. …

做开发找不到合适工作,程序员还有哪些新选择?

一、开发和程序员的核心痛点 1. 需求反复无常,加班成为常态 需求频繁变更:产品经理的一句话可能导致代码全盘推翻重写。例如,某后端开发工程师为一个用户登录功能反复修改了 23 版设计,每次都需重构大量代码。这种不确定性让开发…

【AI黑科技】BLIP3-o开源:图像理解+生成二合一,代码开源小白也能玩转多模态大模型

BLIP3-o是首个完全开源的统一多模态模型,能够同时胜任图像理解与图像生成任务。与传统分离式架构不同,BLIP3-o 创新性地构建了共享的语义空间,使两大能力相互赋能。 1. 统一语义空间 传统多模态模型面临根本性矛盾: 图像理解&am…

只会调用接口卖不上价?大模型开发进阶路线:从 ChatGPT 到自建 AI,这波红利必须吃!

引言:网上关于大模型的文章也很多,但是都不太容易看懂。小枣君今天试着写一篇,争取做到通俗易懂。 废话不多说,我们直入主题。 █ 什么是大模型? 大模型,英文名叫Large Model,大型模型。早期…

django-python基于大数据技术的地铁短时客流预测系统的设计与实现_xk3513ir

目录摘要开发技术核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 该系统基于Django框架与Python技术栈&am…

同行在裁员降薪,你却在薪资翻倍!2026程序员靠大模型破局:从提示词工程到AI应用开发实战!

有人说:“现在失业是就业岗位的减少,大家都会基本使用的那一套(个人能力、思维方式)能力差异肯定有,大环境下会卡条件、工作经验、项目经验、跳槽公司等。之前月入20k,现在只能10k,福利和待遇的…

20260107_171226_从Agent到Skill:AI应用范式的关键转变

引言 在AI领域,我们曾一度热衷于打造无所不能的“Agent”,期待一个模型或一个系统能解决所有问题。然而,Anthropic的研究团队在近期演讲中尖锐地指出:这种追求全能Agent的思路正面临瓶颈。真正的突破口,或许在于转向构…