Nature发表、Science点赞!清华揭秘AI让科学家走捷径却让科学走窄路

AlphaFold获得诺贝尔奖标志着人工智能工具已深入科学的核心地带。

清华大学一项基于41,298,433篇论文的深度研究揭示了一个令人深思的悖论。

AI显著提升了科学家的个人产出与职业进程,却导致整个科学探索的领域变得狭窄且固化。

该研究发表在Nature上,而且被Science深度报道。

AI工具正在极速渗透自然科学

AI在科学发现中的角色已经从辅助工具转变为核心引擎。

AlphaFold不仅解决了困扰生物学界五十年的蛋白质折叠问题,还通过预测未知结构展示了超越人类实验能力的潜力。

深度强化学习模型维持了聚变反应堆中复杂的等离子体配置,甚至发现了能加速自身运算的矩阵乘法新算法。

由大语言模型驱动的自主实验室系统正在帮助化学家和材料科学家扩大高通量实验的规模。

这些成就不仅为科学家赢得了诺贝尔奖等顶级荣誉,更引发了关于AI如何重塑科学面貌的深刻讨论。

为了量化这种影响,研究团队并未局限于计算机科学或数学这些AI的原生领域,将目光投向了生物学、医学、化学、物理学、材料科学和地质学这六大自然科学基础学科。

研究人员利用OpenAlex数据集,调取了从1980年到2025年间出版的41,298,433篇研究论文。

这是一个庞大的数字,涵盖了从传统机器学习到深度学习,再到最新生成式AI的完整发展历程。

为了从这四千多万篇浩如烟海的文献中精准识别出使用了AI工具的研究,研究团队并没有采用简单的关键词搜索,这种传统方法往往会遗漏隐含的或新出现的AI应用。

他们采用了一种更为精细的方法,微调了BERT(Bidirectional Encoder Representations from Transformers)语言模型。

这是一种能够理解上下文语境的深度学习模型。

研究人员首先在明确的AI导向期刊和会议文章上训练模型,使其学会“像专家一样”识别AI相关的语义特征。

这个识别过程分为两个阶段。

模型分别根据论文的标题和摘要进行独立训练,整合两个模型的判断来确定一篇论文是否属于“AI增强型研究”。

这种方法有效避免了人工筛选触发词的局限性。

为了验证这一自动化流程的准确性,团队聘请了人类专家对随机抽样的论文进行人工标注。

结果显示,专家之间达成了一致性极高的共识,平均Fleiss’ κ系数达到0.964,而BERT模型与专家判断的对比验证中,F1分数高达0.875。

这表明机器的判断已高度接近人类专家的水平。

数据揭示了一个清晰的趋势:AI增强型论文的比例正在经历爆发式增长。

从1980年到2025年,生物学领域的AI论文份额增长了51.89倍,地质学增长了10.70倍。

采用AI工具的研究人员比例增长更为迅猛,物理学领域的增长甚至达到了362.16倍。

这种增长并非线性,在机器学习、深度学习和生成式AI这三个技术迭代的浪潮中,增长率呈现出逐级加速的态势。

这表明AI不再是边缘的尝试,已成为自然科学研究中不可或缺的主流范式。

AI显著的职业加速与影响力红利

这种技术采纳的背后是巨大的职业激励。

统计数据显示,那些将AI工具融入研究的科学家,在职业生涯的各个维度上都全面超越了未采用AI的同行。

从论文发表的那一刻起,AI增强型论文就展现出更强的生命力。

平均而言,AI论文的年度引用量比非AI论文高出98.70%。

这种优势不仅体现在平均数上,在最高引用和最低引用的统计指标中,AI论文都保持着一致的领先地位。

这种引用优势在不同影响因子的期刊中呈现出异质性分布。

在影响力最高的Q1分区期刊中,AI论文的比例比平均水平高出18.60%。

这说明高水平期刊更倾向于接收和发表利用AI技术的研究成果,或者说,AI技术更容易帮助研究成果达到高水平期刊的要求。

这种“高曝光度”直接转化为了科学家的个人学术资本。

对于个体科学家而言,拥抱AI带来的回报是丰厚的。

数据表明,采用AI的研究人员平均每年发表的论文数量是未采用者的3.02倍,获得的引用次数则是4.84倍。

即使排除了核心研究者在采用AI之前的既有成就差异,通过对比早期职业生涯起点相似的科学家,这种生产力和影响力的提升依然显著存在。

这说明并非仅仅是“优秀的科学家选择了AI”,AI本身确实对科学家的产出产生了巨大的增益效应。

这种增益最直接的体现是在职业晋升的速度上。

研究将科学家分为“初级”和“资深”两类,标准是有无领导过研究项目。

分析228万名科学家的职业轨迹后发现,使用AI的初级科学家晋升为资深科学家的概率比不使用者高出13.64%。

他们不仅更有可能跨越学术生涯的这道关键门槛,还能更快地跨越。

通过生灭模型(birth–death model)拟合职业轨迹,发现AI使用者的预期晋升时间缩短了1.37年。

在这个竞争激烈的学术环境中,接近一年半的先发优势是巨大的。

AI的引入改变了科研团队的微观结构。

AI增强型研究项目通常由更精简的团队完成,平均减少了1.33名成员,其中主要是初级科学家。

这种现象暗示了AI工具可能正在替代部分原本由初级研究人员承担的数据处理和分析工作。

尽管团队规模缩小,产出却在增加,这进一步印证了AI作为效率倍增器的作用。

资深科学家在AI项目中的平均年龄也比非AI项目年轻10.77%,显示出年轻一代的实验室领导者更倾向于利用这一新技术来建立自己的学术领地。

科学探索版图的收缩与固化

个人层面的繁荣景象掩盖了集体层面的隐忧。

AI在提升个体效率的似乎正在让整个科学界的视野变得狭窄。

为了衡量这一点,研究引入了“知识广度”(Knowledge Extent)的概念。

他们使用SPECTER 2.0模型,这是一个在海量科学文献上预训练并结合引文信息微调的文本嵌入模型,将每一篇研究论文映射到一个768维的向量空间中。

在这个高维空间里,可以通过计算论文集合所覆盖的向量空间“直径”来量化它们探讨的科学话题的广度。

分析结果令人警醒:与传统研究相比,AI增强型研究的知识广度中位数收缩了4.63%。

这一趋势在所有六个自然科学学科中是一致的。

进一步将学科细分为两百多个子领域后,超过70%的子领域都出现了这种知识版图收缩的现象。

此外,AI研究的知识分布熵值更低,意味着注意力过度集中在了少数几个核心问题上,而忽略了更广泛的探索可能性。

这种收缩并非因为AI论文本身的衍生能力差。

恰恰相反,单篇AI论文激发的后续引用所覆盖的领域往往比非AI论文更广。

问题的根源在于“跟随者”的行为模式。

研究发现,AI研究激发了“独善其身”式的引用结构。

在非AI研究中,引用同一篇基础论文的后续研究者之间往往会形成复杂的互动网络,彼此引用,形成一个紧密的学术社区。

在AI研究中,后续论文往往只关注那篇核心的AI论文,彼此之间却极少互动。

数据显示,AI研究的后续参与度(follow-on engagement)降低了22%。

这种星型而非网状的引用结构导致了“孤独的人群”(lonely crowds)现象。

大量研究者涌向同一个热门的AI模型或数据集,彼此之间却缺乏思想碰撞。

这直接导致了科研工作的重复和同质化。对5.9亿对论文引证关系的分析显示,那些引用同一来源但互不引用的“不参与”论文对,其在向量空间中的距离比那些互相引用的论文对要近得多。

这意味着大量科学家在互不知情的情况下,在极其相似的细分领域内进行着重复劳动,也就是所谓的“更重叠的研究”。

数据可用性是造成这一现象的主要驱动力。

分析表明,AI研究倾向于聚集在数据最丰富的领域,而不是科学问题最紧迫或最基础的领域。

那些缺乏大规模数据集的根本性科学问题,如自然现象的起源等,往往被AI浪潮所遗忘。

科学家们利用AI在已知数据的领域内进行深耕和优化,通过改进模型在既定基准上刷出更高的分数,从而获得发表和引用的奖励。

这种机制鼓励了“利用”(exploitation)而非“探索”(exploration)。

这构成了AI时代科学发展的核心悖论:个体科学家通过采用AI获得了影响力的扩张和职业生涯的加速,但这种基于个人利益的最优选择,在宏观上导致了科学探索方向的趋同和集体知识边界的收缩。

AI工具目前更多地是在自动化现有的领域,而不是在开拓新的领域。

科学正变得越来越像是一场在路灯下找钥匙的游戏,因为那里的光线(数据)最充足。

面对这一挑战,科学界需要重新思考AI的发展路径。

如果AI仅仅被用作数据处理和模式识别的认知增强工具,它将不可避免地加剧这种“富数据领域”的马太效应。

为了保持科学探索的多样性和广度,未来的AI系统需要从单纯的认知能力扩展到感知和实验能力。

我们需要能够主动搜索、选择和收集新类型数据的AI,帮助科学家进入那些数据匮乏的未知领域,而不是仅仅停留在舒适的数据富矿区。

只有当AI能够帮助我们通过新的视角观察自然,而不仅仅是更快地处理已有数据时,它才能真正成为拓展人类知识边界的工具,而非导致科学内卷的加速器。

参考资料:

https://www.nature.com/articles/s41586-025-09922-y

https://www.science.org/content/article/ai-has-supercharged-scientists-may-have-shrunk-science

https://rdcu.be/eY5f7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1170130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI技术唾手可得的时代,挖掘新需求是产品突围的关键——某知名聚合DNS管理系统的需求洞察

a.内容描述 核心功能定位:该项目是一个聚合DNS管理系统,旨在为用户提供一个统一的Web界面,集中管理分布在多个主流云服务商和DNS服务平台的域名解析记录。其核心定位是解决用户在多平台间切换管理DNS解析的繁琐问题。关键应用场景&#xff1a…

编程已终结!AI时代的原生智能软件架构长啥样?Claude给了个指南

近期,完全由 Claude code 自主编程开发软件已经成为现实,人们惊呼编程已经终结,该领域的奇点已至:革了程序员再革打工人:Anthropic 发布 Cowork,Claude Code 走进数字办公自动化。 那AI时代的软件应该如何…

安卓神器 --- 浏览器 之 yandex 狐猴浏览器 chrome firefox

安卓神器 --- 浏览器 之 yandex 狐猴浏览器 chrome firefox安卓神器 --- 浏览器 之 yandex 狐猴浏览器 chrome firefox

P11714 [清华集训 2014] 主旋律 Sol

计数神题。 题目链接 前言 这篇题解没有什么特别的,纯粹是快速题解区变换。仅在一些地方加上了自己的理解,希望会有所帮助。 做本题之前,可以先看看P6846 [CEOI 2019] Amusement Park,可能会有所启发。 解题思路 D…

GD5F1GM7UEYIGR:兆易创新1Gbit SPI NAND闪存,高效低功耗

品牌:兆易创新(GigaDevice) 型号:GD5F1GM7UEYIGR 容量:1Gbit 产品类型:NAND FLASH 接口类型: 标准SPI接口,支持1、2、4线模式。这意味着它只需要极少(通常6-7个)的GPIO引脚即可实…

夏天还不算开始——我,不会退役

或许每个人都会遇到吧,起起落落才是常态。一切过往,皆为序章。 :::align{right} ——莎士比亚 :::十月底,浙江从夏入冬,没有秋天。桂花?夹在冷热间开了一个星期,落完了。 具体经历,我不想回忆了。 2025/11/1 mo…

4B超越8B比肩30B!清华、面壁智能端侧智能体天花板开源

清华大学自然语言处理实验室(THUNLP)、中国人民大学、面壁智能(ModelBest)与OpenBMB开源社区联合发布并开源了端侧智能体模型AgentCPM-Explore。该模型仅凭4B参数规模便在深度探索类任务上取得了同尺寸模型的SOTA(Stat…

企业软件供应链安全治理立项,方案书/立项书该怎么写?

当CTO或安全负责人指示“今年要把软件供应链安全做起来”时,很多项目负责人往往会陷入迷茫:“到底是应该买个SCA工具扫一扫?还是建立一套复杂的流程呢?我的项目立项书/方案书到底应该怎么写?后续的落地要怎么规划呢&am…

[Non] 字符串问题

字符串问题 大意 插入字符,查询字符。 初始串 \(s\), \(|s| \le 10^6\)。 思路 可以用平衡树,但是我选择更为强势的 STL 中的 rope。 头文件:#include<ext/rope> crope r1; // 存储 char 的 rope w…

谷歌Veo 3.1更新:更一致性、更具创造力和控制力

刚刚&#xff0c;谷歌Veo 3.1发布更新。通过素材转视频功能&#xff0c;实现了角色身份、背景与物体在动态场景中的高度一致性&#xff0c;并首次支持原生竖屏生成与4K超分画质&#xff0c;彻底打通了从静态图像到专业级动态叙事的创作链路。三大更新都是当前市场需求最大的领域…

评正高写书10万字什么价格?

评正高写书10万字什么价格&#xff1f; 评正高专著要求多少字&#xff1f; 下面淘淘论文来回答作者的这个疑问。一、评正高专著要求同样是评正高职称&#xff0c;要求有一定差异。一般评正高职称&#xff0c;对于专著的要求分为这几种情况&#xff1a;&#x1f539;独著或者合著…

Day15对象的方法与遍历对象

方法:<!DOCTYPE html> <html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"…

SCI分区是怎么划分的?

SCI分区是怎么划分的&#xff1f;SCI期刊的一区、二区、三区、四区是怎么分区的&#xff1f;很多作者知道SCI有几个分区&#xff0c;但是不知道期刊的分区标准。下面淘淘论文来回答作者的这个疑问。一、SCI期刊分区划分的原因SCI期刊数量有9000多种&#xff0c;而SSCI期刊有300…

深圳ACFlow智能营销系统:2026年中小企业AI驱动营销新范式

## 智能营销系统:2026年企业增长的数字化引擎在数字经济浪潮下,**智能营销系统**已成为企业提升市场竞争力、实现精准获客的核心工具。根据艾瑞咨询《2026年中国营销科技(MarTech)行业研究报告》显示,中国营销科技…

工业级文本转SQL新思路:成本暴降、超3000列超大数据库依然稳健

像一位经验丰富的数据库工程师那样去思考和探索&#xff0c;才是解决工业级文本转SQL&#xff08;Text-to-SQL&#xff09;难题的终极答案。华中科技大学与复旦大学联合发布了AutoLink框架&#xff0c;通过引入自主智能体&#xff0c;模拟人类工程师“探索-验证-迭代”的工作流…

ACP:2.从一个 .NET 实战开始,看 Agent 带来的真实差异

ACP:2.从一个 .NET 实战开始,看 Agent 带来的真实差异 在上一篇文章中,我们聊了 ACP 想解决的核心问题:当 AI 工具越来越多,Agent、Prompt、MCP、Skills 已经变成一种需要被管理的工程能力。这一篇,我们不再讲理…

C++跨平台开发挑战的技术

跨平台开发概述C作为跨平台语言的优劣势分析常见跨平台场景&#xff08;Windows/macOS/Linux/嵌入式等&#xff09;跨平台开发的核心目标&#xff1a;代码复用与一致性体验技术挑战与解决方案编译器与标准兼容性问题不同平台编译器&#xff08;GCC/Clang/MSVC&#xff09;对C标…

万卡的部署架构

目录一、理解题意二、回答思路(Step by Step)1️⃣ 量化和模型副本2️⃣ 模型并行策略3️⃣ 推理请求调度4️⃣ 弹性伸缩和高可用5️⃣ 核心要点总结(面试回答模板) 好的,这类面试问题,本质是在考察你对 大模型生…

IDM插件开发创意赛

引言IDM&#xff08;Internet Download Manager&#xff09;插件开发的意义与价值创意赛的背景与目标参赛者的技术门槛与预期成果IDM插件开发基础www.yunshengzx.comIDM插件架构与核心功能开发环境配置&#xff08;工具链、SDK、文档资源&#xff09;插件与IDM的交互机制&#…

建模智能体,AI 时代的数据治理新范式

从制度治理到生成式治理的根本转变 1 数据治理是上一代信息化的体系性问题 过去十多年&#xff0c;企业在数据治理上的投入并不算少。沿着数据治理方法论&#xff0c;我们有主数据、元数据、数据标准、数据质量、数据资产目录、数据开发与分析、安全分级分类……几乎每一个治理…