Science重磅:AI编程新手与资深开发者之间的差距巨大

一篇AI编程的全球调查研究,发表在《科学》杂志上。

美国程序员提交的Python代码中已有29%由人工智能代笔,资深开发者正在利用这一工具拉大与新手的差距。

研究团队训练了一个神经网络分类器,扫描了全球16万名开发者在六年间提交的3000万次代码修改,精准量化了生成式AI在软件开发领域的扩散程度、全球分布差异以及它对不同经验等级程序员产生的不同影响,揭示了技术红利背后的隐忧。

机器嗅觉精准捕捉代码指纹

生成式AI被誉为蒸汽机、发电机之后的新一代通用技术,关于它将如何革命性地提升生产力,人们有着无穷的想象与争论。

现有的证据大多来自问卷调查、受控的实验室实验或是特定公司的内部数据。

问卷调查容易受到受访者记忆偏差和社会期望的影响,人们可能因为害怕被评判而隐瞒在工作中使用AI的事实,或者仅仅是因为好奇而尝试了一下就声称自己是使用者。

实验室实验虽然能精准测量因果关系,但往往只观察很短的时间窗口,无法反映真实工作流中复杂的代码维护和长期迭代。

为了获得一张高清晰度的全景图,研究人员决定不再依赖人们说了什么,而是直接去看他们做了什么。

研究团队设计了一种更为客观的监测手段,他们把目光投向了GitHub。

GitHub是程序员工作的数字足迹记录仪,每一次提交(commit)都忠实地记录了谁、在什么时间、修改了哪些代码。

为了从海量的数据中把AI生成的代码揪出来,研究者构建了一个基于GraphCodeBert模型的机器学习分类器。

GraphCodeBert是一种预训练的编程语言模型,它不仅理解代码的文本字符,还能理解代码的逻辑结构、变量之间的数据流向以及注释信息,就像一个深谙编程语法的语言学家。

研究人员构建了一个包含人类纯手写代码和AI生成代码的对照数据集。

为了确保人类代码的纯粹性,他们选取了2018年的代码作为样本,那时像ChatGPT这样强大的生成式AI尚未问世,所有的代码必然出自人类大脑。

考虑到编程风格会随时间演变,他们也补充了后续年份中确定由人类编写的代码。

对于AI生成的代码,研究者采用了一种巧妙的双盲生成法:先让一个大语言模型阅读一段人类代码并用英语描述其功能,再把这段英语描述喂给另一个不同的大语言模型,让它根据描述重新生成代码。

这种方法切断了人类原始代码与AI生成代码之间不必要的文本相似性,确保分类器真正学习到的是人类逻辑与AI逻辑在深层结构上的差异,而不是简单地背诵代码片段。

经过训练的分类器表现惊人,在测试集上区分人类代码和AI代码的准确度极高,ROC AUC得分达到0.96。

它能以极高的置信度判断一段Python函数究竟是人类敲击键盘的产物,还是AI生成。

随后,研究团队将这个训练有素的分类器投入实战,对2019年初至2024年底期间,由10万名美国开发者和6万名其他国家(中国、法国、德国、印度、俄罗斯)开发者提交的超过3000万次代码修改进行了地毯式扫描。

为了保证分析的颗粒度,他们将分析单位锁定在函数这一级别,这是代码中具有独立功能的最小逻辑单元。

这种监测方法的优势在于其非侵入性和回溯能力。

它不需要打扰开发者,也不需要安装监控插件,就能从公开的历史记录中还原出技术扩散的真实轨迹。

数据显示,随着Copilot技术预览版、ChatGPT发布以及GPT-4等更强模型的陆续登场,代码库中AI生成的痕迹呈现出爆发式增长。

这直观地记录了AI工具从尝鲜品变为生产力工具的历史进程。

全球算力版图上的速度与阻碍

透过这面大数据的透镜,全球AI采用率的地理分布图景清晰地浮现出来。

美国作为生成式AI技术的发源地,在这场竞赛中占据了明显的先发优势。

数据显示,每当有重大的AI产品发布,美国开发者的采用率曲线就会出现陡峭的攀升。

截至2024年底,美国开发者提交的Python函数中,已有约29%被算法判定为AI生成。

这一比例相当可观,在美国的开源软件生态中,接近三分之一的基础代码构建工作已有AI的深度参与。

紧随其后的是欧洲国家。

德国和法国的开发者展现了极高的接受度,其AI代码占比分别达到了23%和24%,与美国的差距正在逐步缩小。

这表明在开放的互联网环境下,技术的扩散几乎没有国界,优秀的生产力工具会迅速跨越得克萨斯州的服务器,流向柏林和巴黎的办公室。

印度作为全球重要的软件外包和开发中心,虽然起步稍晚,但追赶速度惊人,采用率已逼近20%。

这种快速的追赶可能源于印度庞大的开发者基数以及对于提升交付效率的强烈市场需求。

与欧美印的高歌猛进形成鲜明对比的是,中国和俄罗斯的采用率曲线显得相对平缓,处于较落后的位置。

这种地理差异并非源于技术能力的匮乏,而更多地受到软件供应链和访问渠道的影响。

OpenAI和Anthropic等主流模型提供商对部分地区的IP地址进行了封锁,同时这些国家内部也存在网络访问的限制。

此外,中国拥有自己独立的开源代码托管生态,如Gitee,GitHub的数据可能无法完全反映中国开发者的全貌。

尽管如此,作为全球通用的代码库,GitHub上的数据仍然揭示了明显的区域性技术鸿沟。

值得注意的是,数据并未显示出明显的性别差异。

通过对开发者用户名的分析推断性别,研究发现男性和女性开发者在AI工具的使用频率上几乎没有区别。

这打破了一些关于技术采纳中性别刻板印象的假设,表明生成式AI作为一种旨在降低工作门槛的工具,具有普惠的特质。无论性别如何,只要能提升效率,开发者都会积极拥抱。

从宏观经济的角度来看,这种采用率的差异可能在未来转化为数字经济产出的差距。

如果AI确实能显著提升编程效率,那么先行采纳的国家将在软件迭代速度、创新成本上获得累积性的优势。

历史上的通用技术扩散往往需要数十年才能在宏观经济数据上显现出生产率的飞跃,而生成式AI在短短几年内就达到了如此高的渗透率,其带来的经济影响可能会比蒸汽机或电力来得更加迅猛。

经验鸿沟中的马太效应

文章最引人深思的发现在于AI对不同经验水平开发者的不对称影响。

人们通常认为,AI能通过填补知识空白,帮助新手迅速达到平均水平,从而起到技能拉平的作用。

数据讲述了一个完全不同的故事。

在GitHub平台上,资深开发者(即在平台上活跃多年、拥有丰富提交记录的用户)不仅采用了AI,而且从中获得了实实在在的生产力飞跃。

相比之下,初级开发者虽然也积极使用AI工具,甚至在某些指标上使用率更高,但他们的产出并没有出现统计学意义上的显著增长。

数据显示,对于资深开发者而言,使用AI与代码产出量的增加呈正相关。

模型测算表明,按照美国目前的采用率,AI工具推动了季度代码提交量增长了约3.6%。

这种增长主要由经验丰富的程序员驱动,在这一群体中,高强度的AI使用甚至能带来超过6%的产出提升。

资深开发者似乎拥有某种点石成金的能力,他们能够熟练地指挥AI生成代码框架,迅速识别并修正AI可能产生的幻觉或错误,将AI生成的半成品转化为高质量的最终代码。

正如一些研究所指出的,AI让资深开发者从繁琐的重复性编码和协调工作中解脱出来,让他们有更多时间专注于核心逻辑的构建。

图D部分直观地展示了这种马太效应:随着开发者经验值的增加,AI带来的边际收益直线上升。

对于刚入行的新手,曲线则在零值附近徘徊。

初级开发者可能因为缺乏鉴别AI代码质量的能力,陷入了生成-调试-再生成的低效循环。

他们可能花费了大量时间在提示词工程上,却无法有效整合AI生成的片段,导致整体开发效率并未提升。

这种现象引发了对未来人才培养的担忧:如果初级开发者无法通过简单的编码任务积累经验,又无法从AI工具中获得即时的生产力反馈,他们的职业阶梯可能会断裂。

除了单纯的代码量,AI还改变了代码的性质。

研究发现,使用AI的开发者更倾向于引入新的软件库(Library)和尝试新的库组合。

AI像一个向导,它鼓励开发者走出舒适区,探索未曾使用过的技术栈。

例如,一个原本只擅长数据处理的开发者,可能会在AI的辅助下快速引入可视化或网络交互的库,从而扩展软件的功能边界。

同样地,这种探索性的红利也主要被资深开发者收割。

他们在AI的帮助下,能更安全、更快速地将新技术融合到现有项目中,实现了能力的横向扩展。

基于这些微观数据,研究者对AI产生的经济价值进行了估算。

即便是采用保守的估计方法,仅计算代码产量的增加,生成式AI每年为美国软件行业带来的直接劳动价值就高达230亿至380亿美元。

如果考虑到实验室研究中显示的更高效率提升(减少任务完成时间),这一数字可能高达1670亿美元。

这还只是直接的代码编写价值,尚未计入由于软件质量提升、功能迭代加快所带来的更广泛的经济溢出效应。

这项研究像是一次对全球软件开发行业的深度体检。

它证实了AI浪潮的真实存在与汹涌势头,也暴露了其在不同地区和不同人群中分布的不均衡。

美国依然领跑,欧洲紧随,新兴市场奋力追赶。

而在微观层面,AI正在成为资深程序员手中的利器,帮助他们跑得更快、探索得更远,却似乎尚未成为初级程序员的救命稻草。

这种技术带来的两极分化,或许是我们在拥抱效率红利时必须正视的挑战。

参考资料:

https://www.science.org/doi/10.1126/science.adz9311

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1219535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白也能懂的视觉推理入门:用Glyph镜像轻松实现多模态应用

小白也能懂的视觉推理入门:用Glyph镜像轻松实现多模态应用 1. 什么是视觉推理?别被名字吓到,它其实很接地气 你有没有遇到过这些场景: 看到一张复杂的电路图,想快速理解各模块功能,但密密麻麻的符号让人…

Z-Image-Turbo模型蒸馏技术揭秘:速度提升背后的原理

Z-Image-Turbo模型蒸馏技术揭秘:速度提升背后的原理 1. 什么是Z-Image-Turbo?不只是“快”那么简单 Z-Image-Turbo是阿里巴巴通义实验室开源的高效文生图模型,但它不是从零训练的新模型,而是Z-Image的知识蒸馏版本。很多人第一眼…

毛球修剪器电路图工作原理:深度剖析电源模块设计

以下是对您提供的博文内容进行深度润色与专业重构后的技术文章。整体风格更贴近一位资深嵌入式硬件工程师在技术社区中自然、扎实、有温度的分享——去AI腔、强逻辑链、重实操感、富细节味,同时严格遵循您提出的全部优化要求(无模板化标题、无总结段落、…

手把手教你用Glyph镜像搭建长文本理解系统

手把手教你用Glyph镜像搭建长文本理解系统 1. 为什么你需要一个长文本理解系统? 你有没有遇到过这些情况: 看一份50页的PDF技术白皮书,想快速定位“模型量化策略”相关段落,但ChatGPT每次只能处理前3页;客服团队每天…

2026必备!专科生毕业论文AI论文平台TOP9测评

2026必备!专科生毕业论文AI论文平台TOP9测评 2026专科生毕业论文AI平台测评:选对工具,事半功倍 随着人工智能技术的快速发展,越来越多的专科生开始借助AI论文平台来提升毕业论文的撰写效率与质量。然而,面对市场上种…

2026年电商客服呼叫中心厂商:靠谱服务商盘点与推荐

随着电商行业竞争加剧,客服呼叫中心已从基础服务工具升级为效率提升核心载体,云化、AI化、全渠道整合成为主流趋势。大促期间的高并发承载、跨渠道信息同步、智能话术辅助等需求,推动厂商不断迭代技术方案。目前市场…

说说江苏翅片式加热管品牌供应商,选哪家比较靠谱?

随着工业生产对加热设备的精细化需求提升,翅片式加热管作为高效传热元件,其供应商的选择直接影响生产效率与成本控制。企业在采购时往往面临如何识别正规供应商优质供应商的核心标准是什么品牌供应商与普通供应商的差…

2026年实力意大利进口岩板品牌价格,哪家值得选

2025年家居建材行业持续升级,高奢岩板已成为住宅、商业空间提升品质感与设计美学的核心材料。无论是实力意大利进口岩板品牌的纯正工艺、大型意大利进口岩板品牌的全场景覆盖,还是来样定制意大利进口岩板品牌的个性化…

青岛汽车贴膜店哪家好,光辉汽车贴膜中心客户评价如何

2025年汽车后市场服务持续升级,专业汽车贴膜已成为车主保护原厂漆、提升车辆质感与保值率的核心选择。无论是隐形车衣的材质甄别、标准化施工流程把控,还是全周期售后保障,优质服务商的专业能力直接决定车主的用车体…

激光焊接生产厂成本控制哪家好,快来了解

在工业制造智能化转型的浪潮中,激光焊接设备作为核心生产工具,其供应稳定性、成本控制能力与技术迭代速度直接决定制造企业的竞争力。面对市场上鱼龙混杂的激光焊接供应商,如何从成本、货源、技术三个维度精准选型?…

【2026年最新】具备CNAS的产品认证机构/检测机构推荐哪家?

开展 CNAS 认可,核心是为检测 / 校准实验室、检验机构等建立符合国际标准的能力与公信力体系,同时为委托方、市场和国际贸易搭建标准化的合格评定桥梁,对机构自身、企业委托方、行业发展乃至国际贸易都有多层级的关…

vivado安装包网络安装与离线包对比全面讲解

以下是对您提供的博文内容进行 深度润色与结构重构后的专业级技术文章 。全文已彻底去除AI痕迹、模板化表达和空洞套话,以一位资深FPGA工具链工程师CI/CD系统架构师的第一人称视角重写,语言更自然、逻辑更严密、案例更真实、建议更具实操性。所有技术细…

在家就能玩的AI实验,Face Fusion镜像使用全记录

在家就能玩的AI实验,Face Fusion镜像使用全记录 1. 这不是电影特效,是你的客厅实验室 你有没有想过,不用去影楼、不花一分钱、不求人帮忙,就能把朋友的脸“换”到自己的毕业照上?或者让童年老照片里模糊的面孔重新清…

Speech Seaco Paraformer Docker Compose配置:多容器协同工作示例

Speech Seaco Paraformer Docker Compose配置:多容器协同工作示例 1. 为什么需要Docker Compose来运行Speech Seaco Paraformer? 你可能已经试过直接运行/bin/bash /root/run.sh,也看到了WebUI在http://localhost:7860上顺利打开——但那只…

Llama3与cv_resnet18_ocr-detection对比:多模态场景应用实战分析

Llama3与cv_resnet18_ocr-detection对比:多模态场景应用实战分析 1. 为什么需要这场对比?——从真实需求出发 你有没有遇到过这样的情况: 客服系统要自动识别用户发来的商品截图,提取关键参数,再调用大模型生成回复…

unet image Face Fusion能跑在RTX3060上吗?低显存适配实战

unet image Face Fusion能跑在RTX3060上吗?低显存适配实战 1. 实测结论:RTX3060完全可用,但需关键调优 先说答案:能跑,而且跑得稳——但不是直接拉起就能用。我用一块8GB显存的RTX3060实测了科哥开发的unet image Fa…

零基础入门语音检测,用FSMN-VAD轻松实现长音频自动分割

零基础入门语音检测,用FSMN-VAD轻松实现长音频自动分割 你是否遇到过这样的问题:一段30分钟的会议录音,里面夹杂大量停顿、咳嗽、翻纸声,想转成文字却要手动剪掉所有静音?或者在做语音识别前,得花半天时间…

Multisim安装教程深度解析:解决NI License冲突问题

以下是对您提供的博文内容进行深度润色与结构重构后的技术博客正文。我以一位长期从事电子系统集成、高校EDA平台部署及NI生态实战支持的工程师身份,用更自然、更具教学感和工程现场感的语言重写全文——彻底去除AI痕迹、打破模板化章节、强化逻辑流与实操温度&…

结构化输出太实用!FSMN-VAD生成可复制时间表

结构化输出太实用!FSMN-VAD生成可复制时间表 语音处理流程里,总有一道绕不开的“前置关卡”:怎么从一段几十分钟的录音里,快速、准确地揪出真正有人说话的部分?人工听?费时费力还容易漏;写脚本…

YOLOv13 SSH远程调试技巧,效率翻倍

YOLOv13 SSH远程调试技巧,效率翻倍 在目标检测工程实践中,一个高频却常被低估的痛点是:模型训练跑通了,但调试卡在SSH连接慢、日志难追踪、GPU状态看不清、代码改了却不知是否生效——整个过程像在黑盒里摸开关。 尤其当YOLOv13这…