Science最新文章:大型语言模型时代的科学生产

Scientific production in the era of large language models

大型语言模型时代的科学生产

随着生产过程的快速演变,科学政策必须考虑机构如何实现转型

大语言模型对科学研究影响的宏观评估背景

尽管生成式人工智能在各学科领域迅速普及,但其实际影响的实证证据仍显零散,科学界对大语言模型跨领域影响的系统性认识有限。本研究通过分析三大预印本数据库的大规模数据,揭示大语言模型在加速论文产出、降低非英语母语学者壁垒及拓展文献发现范围方面的作用,同时指出语言复杂性等传统科学质量指标正在失效。人工智能的演进正挑战关于科研质量、学术交流及智力劳动本质的基本假设,科技政策制定者需推动科研机构适应快速变化的科研生产流程。

研究数据来源与人工智能文本检测方法

本研究收集了arXiv(涵盖数学、物理学、计算机科学等领域120万篇预印本)、bioRxiv(生物与生命科学领域22.1万篇)及SSRN(社会科学、法学等领域67.6万篇)三大数据库2018年1月至2024年6月的数据。通过基于文本的人工智能检测算法,对比ChatGPT发布前后摘要的词汇分布特征,识别可能由大语言模型辅助撰写的文本。具体检测模型训练、验证及替代方法详见补充材料。

大语言模型使用与科研生产力提升的关联分析

研究显示,使用大语言模型的研究者在三大预印本平台的论文产出均显著增长:arXiv、bioRxiv和SSRN的预估增幅分别为36.2%、52.9%和59.8%。生产力跃升可能源于生成式人工智能在研究构思、文献发现、编程及数据分析等多环节的应用,但当前最主要影响集中于写作环节。通过作者姓名及机构信息推断其英语母语背景发现,所有研究者群体均呈现显著生产力提升,其中亚洲姓名学者获益最大。在亚洲机构的亚洲姓名学者中,arXiv平台生产力提升43.0%,bioRxiv和SSRN分别达89.3%和88.9%,而英语国家机构的白人姓名学者增幅为23.7%至46.2%。

大语言模型对科学写作质量信号的影响机制

研究通过弗莱施阅读难易度倒数值量化文本复杂性,并以预印本最终是否在同行评议期刊或会议发表作为质量代理指标。分析发现:大语言模型辅助论文的文本复杂度显著高于自然语言撰写论文;在非辅助论文中,文本复杂度与发表概率呈正相关;但在辅助论文中,该关系发生逆转——文本复杂度增加反而对应更低的同行评议认可度。该模式在词汇复杂度、形态复杂度及宣传性语言使用等多个语言维度均得到验证,并在ICLR-2024会议的专家评审数据中复现。

大语言模型对文献发现与引用行为的影响

基于arXiv平台2.46亿次论文浏览下载数据,研究发现Bing Chat推出后,其用户较Google用户接触到更多样化的文献资源,其中书籍访问量增加26.3%,且访问文献的中位发表时间年轻化0.18年。引用行为分析显示,大语言模型使用者引用书籍的概率整体提升11.9%,引用文献的平均发表时间年轻0.379年,且被引文献的累积引用量降低2.34%。这表明人工智能辅助不仅未强化既有科学经典,反而推动学者关注更年轻、更边缘的学术成果。

研究局限性与未来发展方向

本研究存在若干局限性:人工智能检测方法依赖摘要而非全文,难以精确定位合作者中的具体使用者,且可能漏检经过深度编辑的辅助文本;非随机化的工具采用可能产生自选择偏差;当前结论仅反映技术快速演进过程中的阶段性特征。未来研究需持续追踪更先进推理模型与深度研究功能的影响,深入探索大语言模型如何替代非正式知识传递、促进跨学科交流,并关注其对科研公平性的长期效应。

科学质量评估体系面临的范式变革

随着传统启发式质量判断标准失效,编辑与评审者可能转而依赖作者资历、机构声誉等身份标记,这可能抵消大语言模型促进科研民主化的积极效应。发展专业化“评审智能体”来检测方法不一致性、验证学术主张及评估创新性,或将成为应对方案,但该技术路径是否能在提升评审实质关注的同时避免引发新问题,仍是亟待探索的关键议题。科学界亟需建立更 robust 的质量评估框架与方法论审查机制,以应对科研生产范式的根本性转变。

生产力与发表率

2022年1月至2024年7月期间,采用大型语言模型辅助写作的作者每月发表的arXiv预印本数量较未采用者增长36.2%(上图)。自2023年起,对于采用大型语言模型辅助撰写的论文,arXiv论文的写作复杂度越高,其发表概率反而越低。而未采用LLM辅助的论文呈现相反趋势(下图)。

来源:V.PENNEY/SCIENCE

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1137398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在仅持有 IPA 文件的情况下保护 iOS 应用代码安全

很多人第一次真正重视 iOS 代码保护,往往不是在开发阶段,而是在 IPA 已经交付、源码无法再改动 的时候。 可能是渠道合作、外包交付、历史项目,手里只有一个 ipa,但已经意识到: 这个包一旦被反编译,几乎没有…

Qwen2.5-7B模型监控方案:性能与异常实时检测

Qwen2.5-7B模型监控方案:性能与异常实时检测 1. 引言:为何需要对Qwen2.5-7B进行实时监控? 随着大语言模型(LLM)在实际业务场景中的广泛应用,模型的稳定性、响应性能和运行健康度已成为影响用户体验和系统可…

Qwen2.5-7B应用分享:智能编程调试助手开发

Qwen2.5-7B应用分享:智能编程调试助手开发 1. 引言:为何需要基于Qwen2.5-7B的智能编程助手 1.1 当前编程调试的痛点 在现代软件开发中,开发者面临日益复杂的代码逻辑、多语言环境和快速迭代的压力。尤其是在处理错误堆栈、理解第三方库行为…

Qwen2.5-7B版本升级:从旧版迁移的注意事项

Qwen2.5-7B版本升级:从旧版迁移的注意事项 1. 背景与升级动因 1.1 Qwen2.5-7B 模型定位 Qwen2.5-7B 是阿里云最新发布的 76.1亿参数 大语言模型,属于 Qwen2.5 系列中的中等规模指令调优版本。相比前代 Qwen2-7B,该模型在多个维度实现了显著…

ITRS收购IP-Label以增强数字体验监测能力并拓展欧洲业务版图

本次战略收购为公司带来310余家企业客户及成熟的Ekara DEM平台,巩固ITRS作为金融服务及受监管企业领先可观测性平台的地位ITRS是金融服务及受监管行业实时IT监测与可观测性解决方案的领先供应商。该公司今日宣布已签署最终协议,收购总部位于法国的顶级数…

理解PCB铺铜如何改善电路板整体接地性能

如何用PCB铺铜“驯服”地噪声?一位硬件工程师的实战笔记最近在调试一块高速数据采集板时,ADC的输出频谱上总有一堆说不清道不明的杂散信号。电源纹波查了、时钟抖动测了、屏蔽也做了——最后发现,罪魁祸首竟是那块你以为“随便铺一下就行”的…

面对国自然基金申请,如何撰写一份逻辑清晰且具竞争力的申请书?

每年的国家自然科学基金(NSFC)申请季,对于科研人员而言,不仅是一场学术实力的较量,更是一次对心力与体力的极限挑战。在实验室里日夜攻关,积累了大量的实验数据和前沿想法,但当真正落笔开始撰写…

Qwen2.5-7B模型架构:技术细节深入剖析

Qwen2.5-7B模型架构:技术细节深入剖析 1. 技术背景与核心价值 近年来,大语言模型(LLM)在自然语言理解、代码生成、多轮对话等任务中展现出惊人的能力。阿里云推出的 Qwen2.5 系列 是对前代 Qwen2 的全面升级,覆盖从 0…

一文搞懂机器学习入门知识!

推荐直接网站在线阅读:aicoting AI算法面试学习在线网站 定义与核心思想 学习一个知识最重要的就是要知道这个知识的定义,定义虽然大多晦涩,却是最能完整清晰的表达这个知识的一种表达方式,那么机器学习的定义是什么呢&#xff1…

Modbus协议工业级脉冲模块,为农业自动化实践保驾护航

工业级脉冲输出模块(一种能产生和控制脉冲电信号输出的设备)是农业自动化领域的核心控制部件,它通过发送精密、可控的电子脉冲指令来直接驱动各类执行机构(如阀门、电机),从而实现了对水、肥、药及能源的精准管理。一、 应用逻辑 工业级脉冲输出模块是农…

Qwen2.5-7B角色定制教程:打造专属AI虚拟助手

Qwen2.5-7B角色定制教程:打造专属AI虚拟助手 1. 引言:为什么需要角色定制化的AI助手? 随着大语言模型(LLM)在自然语言理解与生成能力上的飞速发展,用户不再满足于“通用型”对话机器人。无论是企业客服、教…

Qwen2.5-7B搜索引擎:智能问答增强实现方案

Qwen2.5-7B搜索引擎:智能问答增强实现方案 1. 技术背景与问题提出 随着大语言模型(LLM)在自然语言理解、生成和推理能力上的持续突破,传统搜索引擎正面临从“关键词匹配”向“语义理解智能生成”的范式转变。尽管现有搜索引擎能快…

Qwen2.5-7B知识问答系统:企业知识库智能搜索方案

Qwen2.5-7B知识问答系统:企业知识库智能搜索方案 1. 背景与挑战:企业知识管理的智能化转型 在数字化转型加速的今天,企业积累了海量的非结构化文档——包括产品手册、技术文档、会议纪要、客户沟通记录等。传统的关键词检索方式已难以满足员…

Qwen2.5-7B知识量测试:最新知识覆盖度评估

Qwen2.5-7B知识量测试:最新知识覆盖度评估 1. 技术背景与评测动机 随着大语言模型(LLM)在自然语言理解、代码生成、数学推理等领域的广泛应用,知识覆盖广度和领域专业深度已成为衡量模型能力的核心指标。阿里云发布的 Qwen2.5 系…

Qwen2.5-7B人力资源:简历分析与筛选系统

Qwen2.5-7B人力资源:简历分析与筛选系统 在现代企业的人力资源管理中,高效、精准的简历筛选已成为招聘流程中的关键环节。传统人工筛选方式耗时耗力,且容易因主观判断导致偏差。随着大语言模型(LLM)技术的发展&#x…

告别人工调控!工业级可调频脉冲模块守护化工自动化品质

工业级脉冲输出模块在化工行业的应用,核心在于将高精度的数字脉冲指令转化为对阀门、电机、反应装置等关键设备的精准物理控制,从而在高温、高压、腐蚀、防爆等严苛环境下,实现流程的自动化、安全化与精准化。一、应用逻辑 典型系统连接架构为…

自然对话就准确查找资料,资料小助理—智能知识库

在日常工作中,政企事业单位往往面临着知识查找困难的问题。传统的知识交互和传承依赖于老旧员工之间的口口相传,这种方式不仅效率低下,还容易导致信息失真和丢失。随着智能知识库系统的出现,为解决上述问题提供了全新的思路。它能…

Qwen2.5-7B文本相似度:语义匹配优化策略

Qwen2.5-7B文本相似度:语义匹配优化策略 1. 引言:大模型驱动下的语义匹配新范式 随着大语言模型(LLM)在自然语言理解任务中的广泛应用,文本相似度计算作为信息检索、问答系统、推荐引擎等场景的核心能力,正…

Qwen2.5-7B法律咨询:合同分析与条款生成案例

Qwen2.5-7B法律咨询:合同分析与条款生成案例 1. 引言:大模型赋能法律智能化场景 1.1 法律科技的AI转型需求 随着企业数字化进程加速,法律事务的自动化处理成为提升效率的关键环节。传统合同审查依赖人工逐条核对,耗时长、成本高…

2023年IEEE TITS SCI2区TOP,增强遗传算法+分布式随机多无人机协同区域搜索路径规划,深度解析+性能实测

目录1.摘要2.系统模型与认知地图更新3.分布式模型预测控制框架与分布式约束优化4.DSA-EGA 算法5.结果展示6.参考文献7.代码获取8.算法辅导应用定制读者交流1.摘要 针对多无人机协同区域搜索中因协作不足导致的搜索效率低下问题,本文提出了一种基于分布式模型预测控…