GPT 已经会“做科研”了吗?OpenAI 最新 FrontierScience 论文给出了真实答案

结论先行:
大模型已经是世界级“做题家”,
但距离真正像博士一样做科研,还有一整代差距。

最近 OpenAI 放出了一篇不算太“热搜”,但在 AI 圈子里非常重磅的论文:

FrontierScience:Evaluating AI’s Ability to Perform Expert-Level Scientific Tasks

如果你只看模型发布会,你可能会觉得:

GPT-5 已经快接近“通用科学家”了。

但如果你认真读完这篇论文,只会得出一个更冷静、也更真实的结论:

AI 非常擅长解决“高难度科学问题”,
但在“真正做科研”这件事上,还远远不够。

这篇文章,我用工程师 + AI 从业者视角,给你完整拆解这篇论文在说什么,以及它真正想表达的东西。

一、为什么 OpenAI 要重新做一个“科学 Benchmark”?

先说一个很多人忽略的事实:

现有的科学类 Benchmark,已经被大模型刷爆了

比如:

  • MMLU

  • GPQA

  • ScienceQA

这些基准最初的目的,是验证模型有没有“科学推理能力”。
但问题是:

  • 大多是选择题

  • 或者是已知知识问答

  • 本质上仍然是“会不会考试”

结果就是:

模型分数越来越高,但你心里很清楚——
它真的能帮你做科研吗?

OpenAI 这篇论文的出发点其实非常直接:

我们需要一个评估:
模型能不能完成“专家级科学工作”,
而不是“考得好不好”。


二、FrontierScience 到底在测什么?

这套 Benchmark 只有一个核心目标:

区分“会解题”和“会做研究”

所以他们直接把评测拆成了两个完全不同的轨道。


三、第一条赛道:Olympiad(专家级解题能力)

这是什么?

一句话概括:

国际奥赛级别的科学题,但是为大模型量身定做的

特点非常狠:

  • 难度 ≥ IPhO / IChO / IBO

  • 所有题目全新原创

  • 出题人全是:

    • 国际奥赛金牌得主

    • 国家队教练

而且为了防止“背题”:

  • 如果 OpenAI 内部模型能直接做出来

  • 题目会被直接作废重写

考察的是什么?

  • 严谨推理

  • 多步计算

  • 数学 / 物理 / 化学建模能力


模型表现如何?

结果很炸,但也在意料之中:

  • GPT-5.2:77%

  • Gemini 3 Pro:76%

已经接近“专家级解题水平”

如果你只看到这一组结果,很容易得出结论:

GPT 已经快能当科学家了

但别急,真正的重头戏还在后面。


四、真正的核心:Research 轨道(科研能力)

如果说 Olympiad 是“做题”,
Research 才是“做研究”


Research 轨道在干什么?

每一道题,本质上都是:

一个博士在科研过程中会遇到的“研究子问题”

不是选择题,不是算数题,而是:

  • 如何拆解问题

  • 如何选择方法

  • 中间推导是否合理

  • 假设是否站得住脚

论文里明确写了:

人类专家完成一道 Research 题,通常需要 3–5 小时


关键创新:用 Rubric 给科研打分

科研不是对错题,所以他们用了一个很聪明的办法:

10 分制 Rubric 评分

比如:

  • 写出关键方程:2 分

  • 解释物理意义:1.5 分

  • 识别主要限制条件:1 分

  • 最终结论合理:2 分

≥7 分 = 成功完成研究子任务

评分不是人来打,而是:

  • 用 GPT-5 当裁判

  • 严格按照 Rubric,不允许“主观加分”


那模型在 Research 上表现如何?

直接给结论:

全部模型都不及格

模型Research 得分
GPT-5.225%
GPT-525%
Gemini 3 Pro~22%

也就是说:

100 个研究子问题,模型只能靠谱完成 25 个


五、这说明了什么?(重点)

这组结果其实非常诚实,也非常重要:

AI 已经是“世界级做题家”

  • 高难度

  • 强约束

  • 有标准答案的问题
    👉 表现极强

但 AI 还不是“研究者”

在 Research 任务中,模型常见问题包括:

  • 推理链中途断裂

  • 对冷门概念理解错误

  • 假设看似合理,实际不成立

  • 自信地给出错误结论

一句话总结就是:

AI 会推理,但缺乏科研中的判断力


六、这篇论文最有价值的地方在哪?

不是那几个分数,而是它明确划了一条线

“解题能力 ≠ 科研能力”

这对整个 AI 行业非常重要。

以后再有人说:

  • “大模型已经能自动做科研了”

  • “AI 很快就能替代科学家”

你只需要问一句:

FrontierScience Research 跑了多少分?


七、对工程师和 AI 从业者的启示

1️⃣ 别把模型当“科学家”,要当“科研加速器”

  • 文献综述

  • 初步推导

  • 假设生成
    非常强

2️⃣ 真正难的是“研究闭环”

  • 多轮假设

  • 实验验证

  • 修正方向
    这是当前模型最弱的地方

3️⃣ 未来方向已经很清晰

  • Agent + 工具

  • 长程规划

  • 与真实实验系统闭环


八、最后一句话总结

FrontierScience 告诉我们:
GPT 已经站在“专家解题”的天花板,
但距离“真正的科学研究者”,
还差一个完整的科研能力体系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外包测试员如何靠AI翻身?我的真实逆袭路径

一、认清现实:外包测试员的困境与AI带来的曙光在谈“翻身”之前,必须直面外包测试员普遍面临的痛点:价值感低微: 常被视为“人肉执行器”,负责最基础、最重复的手工测试或简单的功能验证,难以接触核心业务逻…

PCB阻抗匹配:高速信号设计核心技巧

实现PCB阻抗匹配需要控制传输线的特性阻抗与信号源及负载阻抗一致,主要步骤如下:1. 计算目标阻抗值根据信号标准确定目标阻抗(如USB为90Ω差分,DDR为单端50Ω)特性阻抗公式: $$ Z_0 \frac{87}{\sqrt{\vare…

SimpleQA 详解:如何用短问答基准衡量大模型的事实性

摘要 短文本事实性(short-form factuality)是大语言模型在实际应用中的关键能力:模型能否在简短、明确的问题上给出唯一且无可争议的答案?OpenAI 的 SimpleQA 基准专注于这一维度——它收集了 4,326 个“只有单一正确答案”的问题…

收藏!大模型入门核心:Transformer架构演进全解析(小白/程序员必看)

大语言模型(LLM)已然成为当前AI领域的技术风口,更是程序员与技术学习者进阶路上的核心必修课。而支撑起GPT、LLaMA等主流大模型的技术根基,正是2017年经典论文《Attention is All You Need》中提出的Transformer架构。对于刚踏入大…

AD原理图转成Cadence格式

AD原理图转成Cadence格式AD中的操作1.建工程2.保存工程和原理3.编译工程Capeture中操作1.导入文件选项2.文件路径选择3.注意参考版本: AD:17.1.9 Cadence:16.6 AD中的操作 1.建工程 AD中的原理图一定要属于一个工程,只有原理图是不行的&am…

收藏!AI大模型赋能临床诊疗全解析(附零基础学习指南)

随着医疗数据的规模化沉淀、算法精度的持续迭代突破以及算力成本的稳步下行,人工智能大模型在临床诊疗领域正加速落地崛起,已然从前期的技术探索阶段,迈入规模化应用的爆发临界点。 当前,AI大模型正沿着文本处理与医学影像两大核心…

收藏!大模型驱动的AI智能体全解析:从概念到应用,解锁大模型学习新方向

本文深度拆解AI智能体的核心逻辑,明确其以大模型为核心驱动力,具备自主感知环境、逻辑思考决策、主动执行任务的核心特质。不同于传统工具的被动调用,AI智能体自带目标导向属性,能自主学习迭代、清晰界定能力边界。文中精准区分了…

收藏!大模型赋能制造业全解析:核心技术+落地案例+学习路径

在数字化转型浪潮中,大模型已成为破解制造业“数据孤岛”“场景碎片化”痛点的核心引擎。本文专为CSDN平台的小白开发者与程序员打造,系统拆解大模型赋能制造业的核心技术体系,详解研发设计、生产制造等关键场景的落地逻辑,结合石…

收藏!ChatGPT爆发后,程序员小白快速上手大模型的突围指南

随着 ChatGPT 的爆发,过去的一年多的时间里,企业和个人对于学习和应用 AI 的必要性已经发生了革命性的转变。从最初的好奇心和探索欲望,逐步深化为对自我 AI 能力的迫切需求。 如今,掌握 AI 技术已经不再是选项,而是我…

开源的幻象与现实:当99%的PR永远等不到合并的那一天

开源的幻象与现实:当99%的PR永远等不到合并的那一天引言:开源的乌托邦与残酷现实在数字时代的叙事中,开源软件被塑造成技术乌托邦——一个由全球开发者共建、共享、共治的理想国。GitHub首页上“全世界最大的开发者社区”的标语,配…

进阶-InnoDB引擎-磁盘结构

一、MySQL进阶在数据库的世界里,磁盘 I/O 是性能的头号瓶颈。想象一下:当你执行一条 SQL 时,如果数据需要从磁盘读取(10ms),而如果能从内存获取(0.1ms),性能将提升100倍&…

2026残酷真相:不懂AI的测试工程师正在被淘汰

一、行业地震:测试岗位的重构风暴 2026年全球质量报告显示:采用AI测试工具的企业平均缺陷检出率提升47%,测试周期缩短68%。传统测试工程师的职能正经历三重裂变: 执行层消亡:自动化脚本编写岗位需求同比下降52%&#…

5 款 AI 写论文哪个好?深度实测:宏智树 AI 凭硬核实力稳坐头把交椅

作为深耕论文写作科普的教育测评博主,每年毕业季后台都会被 “AI 写论文工具怎么选” 的提问刷屏。市面上的 AI 论文工具五花八门,但真正能兼顾专业性、合规性与实用性的却寥寥无几。为此,我实测了 5 款当下热门的真实 AI 写论文工具 ——宏智…

证书的泡沫:当努力成为空洞的回声

证书的泡沫:当努力成为空洞的回声引言:书架上的沉默证明李明的书架上整齐排列着三十多个证书——PMP项目管理专家、CFA一级、心理咨询师、Python高级编程、新媒体运营师、茶艺师、葡萄酒品鉴师……每一个都曾耗费他数月甚至数年的心血,每一个…

八皇后变题hash

lc336lc1001hash计灯在行列、正负对角线的覆盖次数&#xff0c;查询时判断目标格是否被照亮&#xff0c;随后关闭查询格周围33区域的灯并更新统计class Solution { public:unordered_map<int, int> ver, hor;unordered_map<int, int> d1, d2;set<pair<int,in…

‌手把手教你用Qwen生成测试用例:从零搭建LLM测试助手

一、为什么软件测试需要LLM辅助&#xff1f;‌ 传统测试用例设计依赖人工经验&#xff0c;存在三大痛点&#xff1a; ‌效率低下‌&#xff1a;单个功能模块平均需2–4小时编写完整用例集&#xff08;含正向、边界、异常&#xff09;‌覆盖率盲区‌&#xff1a;73%的线上缺陷…

‌Python+LangChain实战:构建你的第一个AI测试生成器

测试工程师的AI转型窗口期‌2025年&#xff0c;全球软件测试行业正经历一场静默革命。传统手工编写测试用例、维护脚本、分析日志的模式&#xff0c;正被大语言模型&#xff08;LLM&#xff09;驱动的智能测试生成器逐步取代。根据《IEEE Software》2025年行业报告&#xff0c;…

百万年薪密码:AI测试架构师能力矩阵全解析

AI测试时代的架构师价值‌ 随着机器学习模型、智能推荐系统、自动驾驶、AIoT等复杂智能应用成为软件生态的主流&#xff0c;软件测试的边界、复杂度和技术栈发生了质的飞跃。传统的手工测试和基于脚本的自动化测试在面对海量数据、非线性逻辑、持续演化的模型和模糊的“正确性…

小样本学习提升医疗影像诊断精度

&#x1f493; 博客主页&#xff1a;借口的CSDN主页 ⏩ 文章专栏&#xff1a;《热点资讯》 小样本学习&#xff1a;破解医疗影像诊断的数据困境目录小样本学习&#xff1a;破解医疗影像诊断的数据困境 引言&#xff1a;医疗影像诊断的“数据荒漠” 一、小样本学习&#xff1a;技…

从无效沟通到首通成交:B2B拓客的秘密武器曝光

在B2B销售的过程里&#xff0c;真正花费最多时间的事情并非讨论方案内容&#xff0c;而是要寻找到那个正确的对接人&#xff0c;这是相当耗费精力的。不知道你是否也曾有过如同以下这样的经历?当你拨打1688平台上标注为“厂家”的电话时&#xff0c;电话是由客服接通的&#x…