AI 真能胜任专业工程师的工作吗?

AI 真能胜任专业工程师的工作吗?

近年来,人工智能(AI)的发展速度令人目不暇接,能够完成写诗、绘画、考试,甚至编写复杂的计算机代码。然而,有一个疑问始终在用户的心头环绕,得不到答案:这位“学霸”走出考场,真的能胜任日常工作中那些复杂、琐碎且充满变化的真实任务吗?

OpenAI,最近推出了一套名为 GDPval 的全新大模型能力评估体系,初步能够回答那个核心问题:当今最顶尖的 AI,究竟离成为我们合格的“工作搭档”还有多远?

问题所在:为何需要新“尺子”?

在 GDPval 出现之前,衡量 AI 模型能力的主流方式是各种学术基准测试,例如衡量语言理解能力的 MMLU、衡量软件开发能力的 SWE-Bench 等。这些测试在推动 AI 技术进步上功不可没,但它们存在一个天然的局限性:它们模拟的是“考场”,而非“职场”

这就像评价厨师,不品尝他做的菜,而是让他做一张关于烹饪的试卷。或者评判汽车修理工,不看他修车,而是让他完成一份关于发动机原理的考题。卷面成绩能反映的是知识,却无法衡量真实能力​。

这种“理论”与“实践”的脱节,使得关于 AI 对真实工作任务的影响的讨论常常流于空泛的猜测。GDPval 的诞生,将用真实世界的数据来校准社会对 AI 能力的认知。

GDPval 的精髓:用“工作”来检验 AI

GDPval 这个名字本身就揭示了其核心理念:“GDP”代表国民生产总值,“val”是评估(evaluation)的缩短。它的目标非常明确:衡量 AI 在那些对经济至关重要的真实工作任务中的表现

它如何实现这一目标?其设计思路主要有三点:

  1. 测评任务源于真实职业: GDPval 的评估任务库,直接来源于对美国 GDP 贡献显著的 9 大行业(制造业、金融保险、医疗健康、专业科技服务、政府、房地产、零售、批发贸易和信息业)、44 个关键职业(涵盖律师、注册护士、机械工程师、合规官、软件开发者、会计师、药剂师等,文理兼备)。这些测评任务由该领域的资深专家亲自设计,确保其高度贴近现实。例如,任务可能包括:请像一位律师一样,审查并修改一份合同草案;像一位市场分析师一样,根据财报数据撰写一份前景分析报告;或者像一位软件工程师一样,为一段代码寻找缺陷并提出优化方案。
  2. 标准来自行业专家: 评估 AI 工作成果的“考官”,同样是这些行业内的专家。他们会根据自己多年从业经验中形成的标准——如准确性、完整性、实用性、创造性等——来对 AI 的产出进行打分。
  3. 直接与人类对比: GDPval 最引人注目的一点是,它进行了一场“人机对决”。在评估中,AI 生成的作品会与人类专家完成的同类作品放在一起,由另一位专家进行“盲审”(即不知道哪份是 AI 所做)。这种直接比较,使得评估结果变得异常直观。

为确保任务的专业性,资深专家平均拥有 14 年以上经验。每项任务平均经过 5 轮专家评审,最终形成包含 1,320 项任务的完整数据集,其中 220 项已开源。

测试示例:机械工程师完成工装夹具的设计任务

这是 2025 年 6 月,你是一名汽车装配线上的制造工程师。产品是一台用于地下采矿作业的电缆卷盘小车,你正在审核最终测试环节。在最终测试中,需要将一大卷电缆进行两次收放操作,以确保电缆卷盘功能符合要求。当前的测试操作流程需要两名人员配合完成:
- 第一个人负责将电缆卷盘搬运并放置到测试设备附近;
- 第二个人则将电缆卷盘的开端连接到测试设备上,并启动收缆(reel in)步骤。当电缆从卷盘上放出并卷绕到小车上时,第一个人需要手动旋转卷盘,以协助电缆顺利放出。当电缆完全收卷到小车上后,下一步是反向操作,即将电缆从小车上放出,重新卷回到原来的卷盘上。此测试需重复一次,以确保功能正常。该任务复杂、存在相关风险、需要大量人力,且会使工作区域变得杂乱。你的经理要求你设计一个工装夹具(jig/fixture),以简化电缆卷盘的收放操作,使该测试可由一人独立完成。随本请求附有一份信息文档,其中提供了关于电缆卷盘尺寸的基本信息、设计电缆卷盘工装夹具的参考资料以及交付成果的结构说明。本次任务的交付成果仅为初步概念设计方案。后续将单独开展诸如应力计算、强度分析、成本效益分析等设计基础工作。你需要使用三维建模软件设计该工装夹具,并使用 Microsoft PowerPoint 制作一份演示文稿。作为交付内容的一部分,请仅上传一份 PDF 文档,用于总结设计方案,并包含你所创建的三维设计截图。**无需提交三维设计文件本身。

image

OpenAI 的模型已经能操作三维建模软件了吗?

初步“体检报告”:AI 的表现令人惊讶

那么,这些 AI“学霸”,表现究竟如何?

在工作质量上,顶尖 AI 正在迅速接近甚至超越人类专业人士。 报告显示,在接近一半的测试任务中,最先进的 AI 模型(如 GPT-4 系列)的产出,被专家评为“与人类专家相当”或“优于人类专家”。这是一个里程碑式的信号,意味着 AI 的能力已经从完成简单、重复性的任务,跃升至可以处理需要深度专业知识和复杂判断的认知性工作。

更令人惊讶的是进步速度。从 2024 年春季发布的 GPT-4o 到 2025 年夏季的 GPT-5,模型在 GDPval 任务上的表现在一年内提升了三倍以上,呈现出清晰的线性增长趋势。

在工作效率上,AI 则展现出压倒性优势。 速度约为人类的 100 倍,成本仅为 1/100。当然,报告也非常严谨地指出了目前的局限性。AI 的惊人效率并未计入人类编写提示词、审查修改、以及将其工作成果整合进上层流程中的时间成本。

人机协作,而非替代

OpenAI 强调,GDPval 的目的并非宣告“AI 将取代人类”,而是揭示 AI 如何作为“增强工具”提升生产力

大多数知识工作并非孤立任务的简单叠加,而是包含沟通、判断、创意和责任承担的复杂过程。例如,律师不仅要写法律简报,还需理解客户模糊的需求、权衡诉讼风险、与对方谈判。这些高阶能力目前仍是人类的专属领域。

GDPval 的意义在于:将重复性、程序化的部分交给 AI,让人专注于需要创造力、同理心和战略思维的工作。比如,工程师可让 AI 生成初版设计文档,自己则聚焦于创新结构或安全验证;护士可由 AI 整理病人数据,从而有更多时间进行床边照护。

这种 “AI 打草稿,人类定稿” 的协作模式,有望在不牺牲质量的前提下,大幅降低知识工作的边际成本,进而推动整体经济增长。

尚待完善的标尺

据 OpenAI 称,目前的 GDPval 1.0 版本并非完美。它主要衡量的是“一次性”的任务完成能力,而真实的工作往往是动态和交互的,充满了沟通、反馈和多轮修改。这正是 GDPval 未来需要演进的方向——从评估“交作业”的能力,走向评估“协作完成一个项目”的能力。

尽管如此,GDPval 的推出依然意义重大。提供了一个基于实际证据的框架,去观察和理解 AI 向真实世界渗透的进程。

小编点评

虽然 GDPval 当前未包含核能行业(因其未进入美国 GDP 前九),但其方法论极具迁移价值。核能领域的研发、设计、安全评审、运维文档、应急响应等环节,同样高度依赖结构化知识输出。未来若构建“核能版 GDPval”,将有助于科学评估 AI 在提升核电安全性与经济性方面的潜力——前提是建立严格的人机协同与验证机制,确保“增强”而非“冒险”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/923748.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

容器中与内存相关的几个参数

在容器环境中,Cache内存使用率通常指的是容器内存中被操作系统用于缓存文件系统数据的部分。操作系统会利用未使用的内存来缓存磁盘上的数据,以提高文件读写性能。这部分内存虽然被标记为“已使用”,但实际上可以在…

求购做网站阿里巴巴上做网站

双线性插值公式 对于一个目的像素,设置坐标通过反向变换得到的浮点坐标为(iu,jv) (其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数),则这个像素得值 f(iu,jv) 可由原图像中坐标为 (i,j)、(i1…

深入解析:【黑马程序员】后端Web基础--Maven基础和基础知识

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

一个网站如何做双语在国内做敏感网站

腾讯云幻兽帕鲁服务器4核16G、8核32G和16核64G配置可选,4核16G14M带宽66元一个月、277元3个月,8核32G22M配置115元1个月、345元3个月,16核64G35M配置580元年1个月、1740元3个月、6960元一年,腾讯云百科txybk.com分享腾讯云幻兽帕鲁…

php 简单下载数据库数据 导出cvs - 何苦

php 简单下载数据库数据 导出cvs<?php set_time_limit(0);// 下载文件名 $filename = date(Y-m-d H:i:s, time()); //输出Excel文件头,可把user.csv换成你要的文件名 header(Content-Type: application/vnd.ms-ex…

新乡营销型网站建设浦东高端网站开发

1. Homography 单应性概念 考虑 同一个平面(比如书皮)的两张图片&#xff0c;红点表示同一个物理坐标点在两张图片上的各自位置。在 CV 术语中&#xff0c;我们称之为对应点。 Homography 就是将一张图像上的点映射到另一张图像上对应点的3x3变换矩阵. 因为 Homography 是一个 …

上海城市建设官方网站如何用html做班级网站

转载&#xff1a;https://www.cnblogs.com/lnlvinso/p/8848883.html 结果&#xff1a;skiplist的高度是个随机值。 SkipList理解 记下自己对跳表SkipList的理解。 SkipList采用空间换时间的思想&#xff0c;通过增加数据间的链接&#xff0c;达到加快查找速度的目的。 数据库L…

网站与网址的区别制作平台网站方案

应用(Docker)使用WAF接入internet&#xff0c;nginx log 查不到用户的真实IP地址&#xff0c;于是修改nginx 设置&#xff0c;以下都是在linux下操作&#xff1a; 由于没有WAF权限&#xff0c;所以在 docker上启动了两个container&#xff0c;一个模拟WAF(r-proxy)&#xff0c…

OpenWRT中备份多个docker容器的脚本 -

在OpenWrt 24.10.1上测试通过 #!/bin/sh # OpenWrt Docker Container Backup Script # Backup docker container and copy to network storageecho "==========================================" echo &quo…

网站常用的优化方法有哪些做网站的策划需要做什么

1 二叉树的概念 二叉树是&#xff1a; 空树非空&#xff1a;根节点&#xff0c;根节点的左子树、根节点的右子树组成的。 二叉树定义是递归式的&#xff0c;因此后序基本操作中基本都是按照该概念实现的。 2 二叉树的遍历 2.1 前序、中序以及后序遍历 学习二叉树结构&#xf…

动态分区分配算法

首次适应算法[first fit] 每次都从低地址开始查找,找到对歌能满足大小的空闲分区 空闲分区以地址递增的次序排列,每次分配内存时顺序查找空闲分区链或表,找到大小能满足要求的第一个空闲分区 最佳适应算法[best fit…

上海殡葬一条龙服务权威推荐:寿衣、骨灰盒购买定制服务暖心陪伴与专业仪式之选

在生命的最后旅程中,一份专业、周到且充满人文关怀的殡葬服务,不仅是对逝者的尊重,更是对生者的慰藉。随着社会需求的不断提升,上海殡葬服务行业逐步走向规范化、专业化和人性化,各类服务机构不断优化服务流程,提…

百度建设自己的网站wordpress博客访问

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用Vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

potplayer截图

Potplayer播放器截图的方法: 在视频区域右击,选择“视频” -> “图像截取” -> “截存当前实画面”(快捷键:Ctrl+Alt+E)。

OpenAI发布提示词集

OpenAI发布提示词集OpenAI 发布“Prompt Packs”300+ 精选提示 Prompt12 个大类(IT、人力资源、销售、产品、客户服务……)每个角色 25 根据 KPI 和产品背景调整以获得最佳结果!https://academy.openai.com/public/…

做的网站需要什么技术支持中山网站建设文化咨询

jedis是一个著名的key-value存储系统&#xff0c;而作为其官方推荐的java版客户端jedis也非常强大和稳定&#xff0c;支持事务、管道及有jedis自身实现的分布式。在这里对jedis关于事务、管道和分布式的调用方式做一个简单的介绍和对比&#xff1a;一、普通同步方式最简单和基础…

网站不备案能解析吗福州市做网站公司

之前有一个公司案例&#xff0c;是这样的&#xff1a; 公司名称&#xff1a;智慧科技有限公司 背景&#xff1a; 智慧科技有限公司是一家拥有数百名员工的中型企业&#xff0c;随着业务的快速发展&#xff0c;公司面临着网络管理上的挑战。 员工在日常工作中需要频繁地访问…

凯里网站制作做网站后期为什么续费

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 张蓝予编辑 | 苏琦6月27日晚间&#xff0c;范冰冰李晨宣布分手&#xff0c;瞬间亿级的访问量&#xff0c;让微博再一次“崩溃”&#xff1a;范冰冰账号评论区无法加载&#xff0c;搜索“范冰冰李晨”显示失败。微博曾经夸下海…

从零开始学神经网络——CNN(卷积神经网络) - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

做视频点播网站如何赚钱东莞微信网站开发

学习了python基本数据类型&#xff0c;附学习笔记图及操作图 转载于:https://www.cnblogs.com/bgd140206127/p/6549229.html