震惊!GPT-4o连幼儿园级别的看表任务都搞不定?大模型致命缺陷曝光,开发者速看!

导读:

发表在IEEE Internet Computing的一项研究显示,多模态大语言模型无法正确识别模拟时钟的时间,暴露出此类大模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。

黄磊|撰文

你能想象吗?一个能解读医学影像、分析复杂图纸的多模态大模型,却栽在了一个幼儿园孩子都能搞定的任务——看表上。

你可能会想,这不就是瞅一眼指针位置的事儿吗?但最新研究发现,多模态大语言模型在读取老式模拟时钟(Analog Clocks)时间这项“简单任务”上的表现却不尽如人意。这背后暴露的,正是当前人工智能在抽象思维和泛化能力上的天然短板。

SAIXIANSHENG

高材生模型的“看表困难症”

我们熟知的大语言模型(Large Language Model,简称LLM),主要是利用海量的文本数据,生成各种回答。在大语言模型成功的基础上,许多人工智能公司也推出了多模态大语言模型(Multimodal Large Language Model,简称 MLLM)。它不仅可以处理文字,还能利用图像、视频和音频等信息,进行表达、交流和理解。在人工智能领域,多模态让机器能够同时处理、整合和理解上述形态的信息,并进行信息推理和生成。

但是,这样一位顶尖学霸,能处理复杂的视觉问答,却看不懂墙上的模拟时钟,就是那种带有指针(时针、分针、秒针)的传统时钟。这就是目前多模态大语言模型的真实写照。

去年7月,来自西班牙和意大利的一个合作研究团队,报告了对包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在内的多个主流多模态大模型的一个测试,发现它们在没有经过专门训练前,基本上都无法正确读取模拟时钟的时间。

图1 网络搜索中常见的钟表图像示例

问题根源很有趣:这些模型的训练数据主要来自互联网,而网络上的钟表图片高度偏向于“经典造型”,比如广告中常见的10:10位置(指针形成优美对称角度)。模型们只记住了常见样式,却没真正理解看表的内在原理。

SAIXIANSHENG

特训立竿见影,但治标不治本

研究人员当起了“补习老师”,创建了一个包含4.3万种可能时间的时钟图像数据集,并使用其中的5000个样本对模型进行精细微调。

结果如何?特训后模型们在“模拟考试”中成绩飙升,在大多数情况下,能够准确读出之前没见过的时钟时间。虽然仍然存在一些误差,但预测时间与实际值相比更加吻合。

图2 微调对模型预测性能的影响(a)调优前(b)调优后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微调前,四个大模型的预测值都距离实际值相差较远,而且结果很分散。微调后,虽然预测结果并不能都完全正确,但总体来说,预测值距离实际值更加接近

但是,当面对131张真实环境中的时钟图片,所有模型都被打回原形:这四个模型都不能正确读取时间。

研究者认为,这表明模型未能将学习成果有效泛化到真实场景。

SAIXIANSHENG

达利式的挑战:当时钟开始“融化”

研究者们在测试以上四种大模型时,意外发现OpenAI的多模型大模型已经更新到GPT-4.1。当他们对该模型测试时,发现GPT-4.1能够轻松读取他们建立的时钟图像数据集中的时间,而且在真实时钟图像数据集上的表现更好。研究者们推测,这可能是因为GPT-4.1训练的数据集样本更多。

若多模态大模型通过更多训练,也有可能辨识别出真实的时钟图像。那么,增加一点难度,如果是变形的模拟时钟呢?

研究团队脑洞大开,创作了两种“魔幻时钟”:一种是表盘扭曲变形的,另一种是指针变细并加上箭头的。这一灵感源于萨尔瓦多·达利的名画《记忆的永恒》中那些软塌塌的融化时钟。

结果显示,最新版的GPT-4.1面对这些“达利式”时钟时无法准确判断。

图3.(a) 正常时钟 (b) 扭曲形状表盘 © 修改指针的时钟图像 三种情况下GPT-4.1原始和精调后的识别结果

具体来说,GPT-4.1模型在变形表盘上的误差增加了近6倍,在修改指针后误差更是飙升到16倍!一个指针上的小箭头,就能让聪明的AI模型晕头转向。这表明模型并未真正理解看时间的原理,而是依赖训练数据中的表面模式。

而另外三个模型,也没能成功读取扭曲或修改指针后的时钟图像的时间。

研究人员分析认为,多模态大模型看表有两个致命误区。

误区一:“方向感”差劲

模型在判断指针指向时经常出错,不够敏感。

误区二:“指鹿为马”

更严重的是,模型经常分不清时针、分针和秒针。它似乎主要依靠指针的粗细来区分它们,一旦指针样式变化,就彻底混乱。

图4. GPT-4.1原始模型和精调后,指针功能混淆的示例(a)修改指针后(b)变形表盘时钟

研究人员指出,这暴露了模型的真实学习方式:它缺乏人类式的抽象思维和泛化能力,不是在学习“看表”这个概念,而是在记忆训练数据中的表面模式。

SAIXIANSHENG

给AI发展的启示

这项研究的意义远不止于时钟读取这个具体任务。它揭示了当前多模态大预言模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。

当模型在一个环节,如区分指针功能,遇到困难时,它在其他环节(如判断指针方向)的表现也会受到影响。这种“连锁反应”式的性能下降在真实世界中可能带来严重后果。

想象一下,一个用于医疗影像分析的AI,如果因为它没见过的某个设备型号或拍摄角度而判断失误,代价将是巨大的。

目前的解决方案主要是“填鸭式”教育——通过增加更多训练数据来覆盖各种情况。但研究人员指出,真正的突破需要模型能够像人类一样进行抽象学习,理解事物的本质原理而非表面特征。

毕竟,我们希望AI是达利那样的创意艺术家,而不是只会复制老师板书的好学生。

而作为人类,当你轻松瞥一眼时钟就知道时间时,不妨对大脑的抽象思维能力多一份感激。至少,这还是我们当前的优势之一。

图5. GPT-4.1在不同时钟变体上的性能及微调影响

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1210728.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【爆】大模型技术炸裂!OpenAI构建AI帝国,Claude编程能力封神,小白程序员如何抓住风口?

重点大模型公司事件 OpenAI:OpenAI在2025年完成了深刻的战略升级。它不再满足于只提供最好的模型(如GPT、Sora),而是以模型为基石,全力构建一个涵盖开发生态、算力基础设施和未来硬件入口的完整帝国。 从2025年到2026…

【AI炸裂】大模型选型攻略:从ChatGLM到GPT,小白程序员也能变身AI大神!

前言:告别“盲选”AI,3分钟搞懂大模型,选对第一生产力。 本篇文章的内容:了解全球AI 格局,选对能够解决问题的AI,提升效率。 其实,选AI就像选工具——不必懂原理,但必须懂分类。即…

2026年郑州旧电缆回收公司推荐:郑州恒森二手空调回收,废旧电缆回收/电缆回收/收购电线电缆/回收废旧电缆/电缆收购公司精选

废旧电缆回收服务的背后,是工业发展的金属资源循环再生。一家深耕郑州本地8年的回收企业,在2026年的市场机遇期,正在为超过3000家企业、工厂和家庭提供电缆回收服务。 随着工业数字化转型与AI数据中心建设浪潮,高纯…

visual studio 中去掉空行

在 Visual Studio 中,可以通过使用 正则表达式 在“查找和替换”功能中批量删除空行。以下是具体步骤,适用于大多数版本(如 VS 2010、2012、2013、2015、2017、2019、2022 等)。 方法一:使用正则表达式替换(推荐…

上海初中辅导哪家靠谱?2026家长圈口碑实测指南,避坑攻略看这里

上海初中辅导哪家靠谱?2026家长圈口碑实测指南,避坑攻略看这里一、上海初中辅导选课现状:三大痛点与破局思路 (一)家长选课三大核心痛点 上海初中家长选课常面临三大核心困扰:一怕盲选难以匹配优质师资;二怕课程…

2026年1月主流GEO服务商能力对比

2026年,AI搜索正式进入“效果决胜期”——企业对GEO(Generative Engine Optimization,生成式引擎优化)的需求已从“让AI提到我的品牌”升级为“让AI推荐的内容直接带询盘”。北京作为全国AI营销的“试验场”,聚集…

2026年重庆CAAC无人机培训机构权威推荐榜:无人机专业培训 /无人机培训 /无人机培训机构 /无人机培训学校/无人机飞手证培训机构精选

在低空经济迅猛发展的大背景下,重庆市作为西南地区的重要枢纽,无人机应用市场持续扩大。据相关行业数据显示,民用无人机驾驶员执照数量近年来保持高速增长,专业持证飞手已成为测绘、巡检、物流、影视等众多行业的紧…

深度剖析 WebHostView:浏览器内核中的桌面级 Web 宿主与 TabHelper 对比

一、前言 随着浏览器技术的发展,Chromium 内核已经不再只是一个网页浏览工具,而是逐渐演化为一个“桌面级 Web 应用运行时平台”。在这个平台上,Web 内容不仅仅是信息呈现,更承担了 UI 和系统交互的角色。为了适应这种趋势&#…

Chrome Safe Browsing:浏览器安全背后的全局防护机制解析

在现代浏览器中,用户每天都会访问海量网站、下载各种文件、输入敏感信息,例如密码或支付信息。然而,网络环境中存在大量潜在威胁,包括钓鱼网站、恶意下载、恶意扩展以及未知漏洞。Chrome 浏览器为了保证用户的上网安全&#xff0c…

深入剖析 WebHostView:浏览器内核中的桌面级 Web 宿主

引言随着桌面级 Web 应用需求的增加,浏览器内核的角色逐渐从一个单纯的网页渲染引擎演化为一个“Web 运行时平台”,为更多类型的应用场景提供支持。在这一过程中,WebHostView 作为一个关键组件,担当了将传统的网页浏览功能与桌面应…

浏览器内核如何把 C++ 桌面能力注入到 JavaScript?

JS 能调用 window.desktop.openFile() —— 并不是 Web 突然变强了,而是浏览器内核在背后完成了一整套跨进程绑定体系。一、核心问题:JS 是怎么“看到” C 的?我们从最终现象开始:window.desktop.openFile("C:\\test.txt&quo…

家长必看!2026线上小学辅导机构大揭秘

家长必看!2026线上小学辅导机构大揭秘一、线上辅导:家长们的新选择 在如今这个数字化飞速发展的时代,线上小学辅导机构如雨后春笋般涌现,成为了众多家长助力孩子学业的新选择。互联网的普及,让优质教育资源打破了…

存储的测试题目

实验 一、 实验要求:理解存储过程的概念 掌握存储过程的语法格式、使用方法 掌握存储过程的创建、执行 二、实验前提: drop table if exists student; Create table student (Id varchar(255), #学号 Name varchar(2…

P5569 [SDOI2008] 石子合并

P5569 [SDOI2008] 石子合并 大意 求最小值的石子合并,\(n \le 40000\)。 思路 利用 GarsiaWachs 算法。 在序列中找到第一个满足 \(a_{i-1} \le a_{i+1}\) 的三元组 \((a_{i-1}, a_i, a_{i+1})\)。 合并 \(a_{i-1}\) …

上海小学生补习提分实测!这4家机构亲测靠谱,家长闭眼抄作业

上海小学生补习提分实测!这4家机构亲测靠谱,家长闭眼抄作业前言:上海家长避坑!2个月实测靠谱补习机构 上海家长们,是不是一提到小学生补习就头大?一边怕孩子跟不上课程节奏,成绩被拉开差距;一边又被市面上五花…

C++课后习题训练记录Day79

1.练习项目: 问题描述 Bob 和 Alice 最近在学习博弈论,为了学以致用,他们找来了一大堆的小饼干,并通过博弈的方式来吃掉这些小饼干。他们将找来的小饼干分成 𝑛 堆,每堆小饼干有 𝑎&#x1d4…

2026年免费公众号排版工具推荐:5款新媒体人必备神器丨微信编辑器哪个好

专业测评开篇:为什么选择专业排版工具 在当今内容为王的时代,公众号文章的视觉呈现直接影响着读者的阅读体验和转化率。据行业数据显示,专业排版的公众号文章平均阅读时长比简单排版高出37%,用户留存率提升52%。然…

Django 用 Loguru 完美替换标准 Logging,实现优雅的日志管理方案

Django 用 Loguru 完美替换标准 Logging,实现优雅的日志管理方案这篇文章将详细拆解如何将强大的 loguru 库深度集成到 Django 项目中,彻底解决原生 logging 配置冗长、难以维护的痛点。为什么要进行方案替换Django 默认的日志配置通过 LOGGING 字典实现…

2026小学辅导机构实测TOP4|宝妈必藏!精准选机构不踩雷

2026小学辅导机构实测TOP4|宝妈必藏!精准选机构不踩雷宝妈们集合啦!是不是一到给娃选小学辅导机构就头大?线下机构跑断腿对比,线上信息五花八门辨不清真假,试听课报了一堆,要么娃不适应,要么效果差强人意,白白…

2026年广州节日定制礼盒公司推荐:广州甄选食材有限公司,精品礼盒定制/定制礼盒/礼盒包装定制/包装礼盒定制/高档礼盒定制公司精选

在当代品牌营销与消费升级的浪潮下,定制礼盒已演变为 “品牌无声的代言人”。一份来自2025年的行业洞察报告显示,超过78%的消费者 表示,高品质、有设计感的包装会显著提升他们对产品本身的好感度与购买意愿。 从食品…