导读:
发表在IEEE Internet Computing的一项研究显示,多模态大语言模型无法正确识别模拟时钟的时间,暴露出此类大模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。
黄磊|撰文
你能想象吗?一个能解读医学影像、分析复杂图纸的多模态大模型,却栽在了一个幼儿园孩子都能搞定的任务——看表上。
你可能会想,这不就是瞅一眼指针位置的事儿吗?但最新研究发现,多模态大语言模型在读取老式模拟时钟(Analog Clocks)时间这项“简单任务”上的表现却不尽如人意。这背后暴露的,正是当前人工智能在抽象思维和泛化能力上的天然短板。
SAIXIANSHENG
高材生模型的“看表困难症”
我们熟知的大语言模型(Large Language Model,简称LLM),主要是利用海量的文本数据,生成各种回答。在大语言模型成功的基础上,许多人工智能公司也推出了多模态大语言模型(Multimodal Large Language Model,简称 MLLM)。它不仅可以处理文字,还能利用图像、视频和音频等信息,进行表达、交流和理解。在人工智能领域,多模态让机器能够同时处理、整合和理解上述形态的信息,并进行信息推理和生成。
但是,这样一位顶尖学霸,能处理复杂的视觉问答,却看不懂墙上的模拟时钟,就是那种带有指针(时针、分针、秒针)的传统时钟。这就是目前多模态大语言模型的真实写照。
去年7月,来自西班牙和意大利的一个合作研究团队,报告了对包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在内的多个主流多模态大模型的一个测试,发现它们在没有经过专门训练前,基本上都无法正确读取模拟时钟的时间。
图1 网络搜索中常见的钟表图像示例
问题根源很有趣:这些模型的训练数据主要来自互联网,而网络上的钟表图片高度偏向于“经典造型”,比如广告中常见的10:10位置(指针形成优美对称角度)。模型们只记住了常见样式,却没真正理解看表的内在原理。
SAIXIANSHENG
特训立竿见影,但治标不治本
研究人员当起了“补习老师”,创建了一个包含4.3万种可能时间的时钟图像数据集,并使用其中的5000个样本对模型进行精细微调。
结果如何?特训后模型们在“模拟考试”中成绩飙升,在大多数情况下,能够准确读出之前没见过的时钟时间。虽然仍然存在一些误差,但预测时间与实际值相比更加吻合。
图2 微调对模型预测性能的影响(a)调优前(b)调优后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微调前,四个大模型的预测值都距离实际值相差较远,而且结果很分散。微调后,虽然预测结果并不能都完全正确,但总体来说,预测值距离实际值更加接近
但是,当面对131张真实环境中的时钟图片,所有模型都被打回原形:这四个模型都不能正确读取时间。
研究者认为,这表明模型未能将学习成果有效泛化到真实场景。
SAIXIANSHENG
达利式的挑战:当时钟开始“融化”
研究者们在测试以上四种大模型时,意外发现OpenAI的多模型大模型已经更新到GPT-4.1。当他们对该模型测试时,发现GPT-4.1能够轻松读取他们建立的时钟图像数据集中的时间,而且在真实时钟图像数据集上的表现更好。研究者们推测,这可能是因为GPT-4.1训练的数据集样本更多。
若多模态大模型通过更多训练,也有可能辨识别出真实的时钟图像。那么,增加一点难度,如果是变形的模拟时钟呢?
研究团队脑洞大开,创作了两种“魔幻时钟”:一种是表盘扭曲变形的,另一种是指针变细并加上箭头的。这一灵感源于萨尔瓦多·达利的名画《记忆的永恒》中那些软塌塌的融化时钟。
结果显示,最新版的GPT-4.1面对这些“达利式”时钟时无法准确判断。
图3.(a) 正常时钟 (b) 扭曲形状表盘 © 修改指针的时钟图像 三种情况下GPT-4.1原始和精调后的识别结果
具体来说,GPT-4.1模型在变形表盘上的误差增加了近6倍,在修改指针后误差更是飙升到16倍!一个指针上的小箭头,就能让聪明的AI模型晕头转向。这表明模型并未真正理解看时间的原理,而是依赖训练数据中的表面模式。
而另外三个模型,也没能成功读取扭曲或修改指针后的时钟图像的时间。
研究人员分析认为,多模态大模型看表有两个致命误区。
误区一:“方向感”差劲
模型在判断指针指向时经常出错,不够敏感。
误区二:“指鹿为马”
更严重的是,模型经常分不清时针、分针和秒针。它似乎主要依靠指针的粗细来区分它们,一旦指针样式变化,就彻底混乱。
图4. GPT-4.1原始模型和精调后,指针功能混淆的示例(a)修改指针后(b)变形表盘时钟
研究人员指出,这暴露了模型的真实学习方式:它缺乏人类式的抽象思维和泛化能力,不是在学习“看表”这个概念,而是在记忆训练数据中的表面模式。
SAIXIANSHENG
给AI发展的启示
这项研究的意义远不止于时钟读取这个具体任务。它揭示了当前多模态大预言模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。
当模型在一个环节,如区分指针功能,遇到困难时,它在其他环节(如判断指针方向)的表现也会受到影响。这种“连锁反应”式的性能下降在真实世界中可能带来严重后果。
想象一下,一个用于医疗影像分析的AI,如果因为它没见过的某个设备型号或拍摄角度而判断失误,代价将是巨大的。
目前的解决方案主要是“填鸭式”教育——通过增加更多训练数据来覆盖各种情况。但研究人员指出,真正的突破需要模型能够像人类一样进行抽象学习,理解事物的本质原理而非表面特征。
毕竟,我们希望AI是达利那样的创意艺术家,而不是只会复制老师板书的好学生。
而作为人类,当你轻松瞥一眼时钟就知道时间时,不妨对大脑的抽象思维能力多一份感激。至少,这还是我们当前的优势之一。
图5. GPT-4.1在不同时钟变体上的性能及微调影响
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~