刚刚,Anthropic内部考题开源!年薪百万工程师,被AI秒了

史上最强模型Claude Opus 4.5发布后,全面碾压了人类顶尖工程师,逼得Anthropic不得不被迫放弃招聘笔试!现在,内部考题已经全面开源了。

就在刚刚,人类程序员最后的堡垒崩塌了。

曾经,Anthropic为自己应聘者准备了一份出了名困难的考题,让他们在家完成。

这份考题一直效果不错,直到Claude Opus 4.5的出现。

有了这个史上最强模型的加持,人类应聘者轻松做出各种考题,因而这份考卷也就失效了。

今天,因为无法再通过传统技术笔试筛选人才,Anthropic被迫开源了旧版试题,并且向全世界求助:有没有办法,让我们真正测试出人类的编程能力?

作为告别,Anthropic选择将把最初版本的测试题发布,作为一个面向大众的公开挑战。

地址:https://github.com/anthropics/original_performance_takehome

在这个测试题中,候选人需要逐步进行多核并行优化、SIMD向量化、VLIW指令打包优化,并用Perfetto trace做分析。

他们依然相信:在无限时间下,最强人类依然能超越Claude的极限。

同时他们强调:如果哪个人类能击败Claude Opus 4.5,请务必联系Anthropic!

刚刚,Claude Opus 4.5把我们的笔试题秒了

在AI时代,究竟该如何进行软件工程师的面试?

Anthropic在这篇博客里,进行了细致的探索。

博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道,曾经Anthropic有一套完美的筛选考题。

可随着AI能力的指数级提升,今天还能完美区分菜鸟和大神的试题,明天就可能被新模型秒杀,这套考题就瞬间失去意义了!

比如,自2024年初,他们的性能工程团队一直在用下面这套题:要求候选人为一个模拟加速器优化代码。

这套题在1000多名面试者中,筛出了几十个最顶尖的工程师。正是这些人,点亮了Anthropic的Trainium集群,发布了从Claude 3 Opus至今的每一个模型。

结果,每个新版本的Claude,都在让这套题失效!

同样的时间里,Claude Opus 4已经优于大多数人类申请者,Anthropic勉强还能筛出最强的人类。

结果Claude Opus 4.5的横空出世,直接追平了最强人类天花板!

如果给无限的时间,人类或许还能险胜,但在面试时间限制下,已经根本无法区分谁是顶尖候选人,谁是最强模型了。

为此,Anthropic已经把这套题迭代了三个版本,甚至越来越「剑走偏锋」。

这套测试的诞生

2023年11月,Anthropic正准备发布Claude Opus 3。

新的TPU和GPU集群就位,大Trainium集群即将上线,公司在算力上的投入是过去的数倍,但性能工程师却严重紧缺。

为此,Anthropic公司绩效优化团队负责人Tristan Hume在Twitter上发帖求贤,虽然收到了大量简历,但标准的面试流程太耗时了。

于是,他花了两个星期设计了一个Take-home测试,从而精准识别出真正硬核的候选人。

设计初衷

为了做出一个好玩的、能让候选人兴奋的东西,并且能以「高分辨率」扫描他们的技术实力,Tristan Hume做了精心设计。

相比现场面试,这种形式在评估性能工程技能上更有优势:

  • 时间更充裕:4小时(后改为2小时)的窗口比50分钟的面试更能反映真实工作状态。
  • 环境更真实:没有面试官盯着,候选人在自己的编辑器里干活,零干扰。
  • 深度考察:性能优化需要理解系统、造工具,这在短面试里很难体现。
  • 兼容AI辅助:明确允许使用AI。因为对于长线难题,AI很难直接给出完美解。

另外,Tristan还构建了一个Python模拟器,模拟了一个具有TPU特征的假加速器。

候选人需要优化在这台机器上运行的代码,并通过一个支持热重载的Perfetto trace来观察执行过程,该trace会展示每一条指令,效果类似公司在Trainium上使用的工具链。

这台模拟机器包含了一些让加速器优化变得很有挑战性的特性,包括:

  • 手动管理的scratchpad内存(不同于CPU,加速器通常需要显式进行内存管理)
  • VLIW架构(每个周期可以并行运行多个执行单元,需要高效地进行指令打包)
  • SIMD(一条指令同时对多个数据元素进行向量化运算)
  • 多核架构(需要将工作负载合理地分配到多个核心上)

这些硬核要素,都让底层优化变得更有趣。

这个任务是一个并行的树遍历问题,刻意设计成不带深度学习背景的形式,因为大多数性能工程师并没有做过深度学习工作,具体知识可以在入职后再学习。

该问题的灵感来自于无分支的SIMD决策树推理——这是一个经典的机器学习优化挑战。

候选人一开始拿到的是一个完全串行的实现,需要逐步挖掘并利用这台机器的并行能力。

早期战果:它曾完美工作

最初的效果非常好。

一位得分遥遥领先的候选人入职后,立即开始优化算子,并解决了一个阻碍发布的编译器Bug。

在之后的一年半里,这套题帮忙组建了核心团队,甚至发掘了几位本科刚毕业但实力超群的天才。

许多候选人甚至因为觉得太好玩,在超时后还在继续优化。最强的一份提交,甚至包含了一个完整的迷你优化编译器。

第一轮崩溃:Claude Opus 4进场

到了25年5月,Claude 3.7 Sonnet已经进化到让一半的候选人只要把题丢给它,就能拿高分。

随后,Tristan用Claude Opus 4的预发布版本试了一下。结果令人绝望:在4小时内,它的代码比几乎所有人类都要好。

这并非他第一次被Claude击败。早在2023年,Claude 3 Opus和3.5 Sonnet就先后攻破了他们精心准备的现场面试题。

对于这次崩溃,Tristan做了紧急修复:既然问题深度不够,那就加码。他重写了启动代码,增加了机器特性的复杂度,并把时间缩短到2小时。

第二版侧重考察巧妙的优化洞察力,而非单纯的代码量。这招奏效了——但是,也只撑了几个月而已。

第二轮崩溃:Claude Opus 4.5的降维打击

后来,当Tristan拿到Claude Opus 4.5的预发布版本时,他眼睁睁看着Claude Code跑了2小时。它像个老练的工程师,先解决了初始瓶颈,搞定了所有常规微优化。

然后它卡住了,遇到了一个看似不可逾越的内存带宽瓶颈——大多数人类也卡在这里。但当他提示「理论极限」时,它思考片刻,竟然找到了那个只有极少数人类能发现的巧妙技巧。

最终,它的得分与人类历史最高纪录持平(而那个人类考生还是在重度依赖 Claude 4 的情况下完成的)。

更可怕的是,Anthropic在内部的「测试时计算」框架中验证发现,它不仅能在2小时内击败人类,甚至随着思考时间的增加,分数还在不断上涨。

大麻烦来了:即将发布的模型,将彻底摧毁公司招聘这个模型开发者的测试题。所以,他们只能采用这个策略——把工作直接外包给Claude Code。

艰难的抉择

有人建议禁止AI,但当Tristan并未采纳。因为在真实工作中,人类就是需要和 AI协作。

也有人建议提高及格线,但这会导致候选人沦为AI的看客,甚至因跟不上AI的思路而不知所措。

性能工程师的真实工作其实更多是艰难的调试、系统设计、分析,以及让AI生成的代码更优雅。这些很难通过客观测试来考察。

到底该怎样设计一个「像真实工作」的面试题?这个任务从未如此艰难。

尝试1:换个题型?被秒杀

首先,Tristan试图设计一个更难的内核优化问题:2D TPU寄存器上的高效数据转置,且要避免Bank冲突。这是一个非常棘手的真实难题。

然而,Claude Opus 4.5发现了一个他都没想到的绝佳优化路径:它重写了整个计算过程,直接绕过了转置的难点。即便他修补了漏洞,Claude Code配合深度思考(Ultrathink)功能,依然能找出修复Bank冲突的技巧。

这让他意识到,这类问题在已有代码库中太常见,Claude已经拥有了海量的训练数据「经验」。

尝试2:变得更古怪

既然「真实」行不通,他只能追求「分布外(Out of distribution)」——即AI没见过的数据。

他想到了Zachtronics的编程解谜游戏。这类游戏使用极度受限的指令集,迫使你用非传统方式编程。

于是,他设计了一套全新的测试:使用微小且极度受限的指令集,目标是指令数最小化。没有可视化工具,没有调试器——候选人必须自己造工具(比如让AI生成调试器)。

他把这套题丢给Claude Opus 4.5,它终于失败了。

这套新题效果不错,分数与候选人的实际能力高度相关。但Tristan心中仍有遗憾:他们放弃了原版试题的「真实感」和「多样性深度」。

但这或许就是代价。

「真实感」已经成为了奢侈品。原版试题之所以有效,因为它像以前的工作;现在的试题之所以有效,因为它模拟了一个全新的、AI尚未涉足的领域。

公开向人类挑战:原版测试题开源!

最终,Anthropic宣布:将原版测试题开源。虽然Claude很强,但在无限时间下,人类专家的极限仍高于AI。

目前,Claude的战绩如下(周期数越低越好):

  • 2164:Claude Opus 4
  • 1790:Claude Opus 4.5(随手一跑)
  • 1487:Claude Opus 4.5(11.5小时超长思考后)
  • 1363:Claude Opus 4.5(改进框架后)

Tristan表示:如果你能优化到1487周期以下,击败Claude的最佳表现,请一定联系他们!

同时,他也欢迎大家通过常规流程申请,体验一下人类要靠多久才能被攻破的「防Claude」新考题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1209842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI核心模型主要贡献者翁家翌:OpenAI所做的,并非完全不能复刻;DS是唯一一次让内部真正警觉;模型公司本质上拼的是Infra的修Bug速度

在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 “ChatGPT 并不是 OpenAI 精…

谷歌4D世界模型来了,比SOTA快300倍!

谷歌 DeepMind 发布 D4RT,彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线,用一个统一的「时空查询」接口,同时搞定全像素追踪、深度估计与相机位姿。 如果是几年前,你问一位计算机视觉工程师:「我想把这段视频…

2025年杭州优质的一对一家教机构老师找哪家,小学家教/大学生家教/师范家教/高中家教/家救,一对一家教老师排行榜

近年来,随着家长对个性化教育需求的提升,一对一家教市场呈现爆发式增长。据公开数据显示,杭州地区家教服务机构数量已突破500家,但教学质量参差不齐、师资真实性存疑等问题频发。在此背景下,如何筛选出真正具备教…

讲讲上海外国公民就业证办理流程,美西咨询一站式服务超省心

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为企业聘用外籍员工提供客观依据,助力精准匹配适配的外国人工作许可服务伙伴。 TOP1 推荐:上海美西企业管理咨询服务有限公司 推荐指数:★★★★…

分析推荐一下无缝钢管企业,东坤伟业产品适配强该咋选?

随着工业生产与市政建设对管材品质要求的不断提升,无缝钢管作为承压能力强、精度高的核心材料,其采购选择直接影响项目安全与成本控制。本文围绕服务不错的无缝钢管厂家推荐一下无缝钢管企业无缝钢管实力公司等高频需…

聊聊北京、天津等地酸奶杯定制厂家,哪家质量好?

随着餐饮、烘焙行业对食品包装个性化需求的激增,酸奶杯定制厂家哪家质量稳定酸奶杯生产厂家哪家质量有保障等问题,逐渐成为食品企业采购决策的核心痛点。本文围绕这三个高频关键词,结合行业实际需求与企业服务经验,…

总结安徽赛瑞斯口碑,多维度剖析口碑真相,安徽赛瑞斯口碑如何?

随着老龄化程度加深与家庭照护需求多元化,专业家政服务逐渐成为刚需,但用户对服务质量、覆盖场景的疑问也日益增多。本文围绕赛瑞斯服务态度好吗、赛瑞斯的业务范围有哪些、安徽赛瑞斯口碑如何三大核心问题展开解答,…

圣祥乳业特色原味酸奶口碑如何,值得购买吗?

一、基础认知篇 问题1:什么是优质原味酸奶?和普通原味酸奶有何区别? 优质原味酸奶是以生牛乳为主要原料,经乳酸菌发酵制成,不添加香精、色素、防腐剂,同时在奶源、发酵工艺、营养保留上具备高标准的酸奶产品。其…

反应器控制系统工程设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

反应器控制系统工程设计(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 过程控制工程设计课程设计报告,反应器控制系统工程设计题目,包含完整的文字说明、设计文件目录、自控设备表、仪表数据表、DCS或…

2025年精选:酒店隔断领域口碑与实力俱佳的厂家,玻璃隔断/自动门/办公室隔断墙/单玻隔断/酒店隔断/感应门/百叶隔断酒店隔断定制推荐排行榜

在酒店空间设计中,隔断不仅是划分功能区域的物理屏障,更是塑造空间美学、提升宾客体验与运营效率的关键元素。随着市场对酒店设计个性化、功能化需求的不断提升,选择一家口碑与实力兼备的隔断厂家,成为众多酒店业主…

2026年1月AI优化+GEO公司:赋能企业营销计划全域布局

面对GEO服务市场的多元选择,企业常困于“性价比”与“效果确定性”的权衡。本文摒弃单纯的价格对比,聚焦服务模式适配性、费用透明度与效果保障机制三大核心维度,拆解各服务商的商业模式与价值主张,构建一套实操性…

2026营销计划geo优化服务商推荐:精选靠谱优化服务商一站式对接

为助力企业高效启动并落地2026年营销计划中的GEO优化环节,本文精选了十家在技术实力、行业适配、效果验证等方面表现突出的靠谱服务商,进行一站式介绍与对接指引。从技术领跑者到垂直专家,从综合服务商到区域深耕者…

AI --> Mermaid --> 图形可视化 (UI)

AI --> Mermaid --> 图形可视化 (UI)如果让AI给你作图,适用Mermaid作为中介,提供AI+到Mermaid到UI的路径​ 人工智能+在过去两年得到飞速的发展,关于如何在实际应用中集成AI,发挥AI的惊人的能力有不同的路径。…

2026年1月geo优化供应商推荐:搭配AI搜索优化升级企业营销计划效果

2026年生成式引擎优化(GEO)公司排行榜:权威榜单深度解析,智推时代领衔,质安华、文拓引擎、小叮文化、易百讯共塑行业新格局 在生成式AI重塑搜索与信息分发的2026年,GEO(生成式引擎优化)已成为企业抢占AI流量入…

2026年1月AI搜索GEO公司甄选:贴合营销计划的技术服务商

一、行业概述 随着AI搜索用户突破15亿、信息获取方式根本性变革,GEO已从边缘技术演进为企业增长的核心基础设施。本报告结合全球市场规模、区域格局与权威测评数据,深度解析2026年GEO服务商竞争格局,并提供贴合企业…

第4章 商业计划书的深度构建与表达策略

第4章 商业计划书的深度构建与表达策略 商业计划书不仅是融资的敲门砖,更是企业战略思考的结晶和与资本市场对话的剧本。一份卓越的商业计划书,应当超越简单的信息罗列,构建一个逻辑严密、证据充分、愿景可信的叙事体系。它需要将创业者的洞…

第5章 投资条款清单的博弈与平衡

第5章 投资条款清单的博弈与平衡 投资条款清单,这份通常只有几页纸的文件,是创业公司与投资机构之间未来一系列复杂法律文件的基石与蓝图。它虽不具备完整的法律约束力,却清晰地勾勒出了资本与创业之间最核心的权利义务关系与利益分配格局。…

第6章 寻找与甄别天使投资人的系统化方法

第6章 寻找与甄别天使投资人的系统化方法 天使投资是企业融资旅程的起点,也是最需要温度与信任的环节。寻找天使投资人,并非盲目地广撒网,而是一场基于理性规划与精准触达的系统性工程。这不仅关乎资金,更关乎企业基因的初次塑造—…

第3章 全面检视与策略准备:企业融资前的关键布局

第3章 全面检视与策略准备:企业融资前的关键布局 融资是企业发展过程中的关键一跃,它不仅仅是资金的注入,更是一次对企业全方位能力的深度审视和战略重构。在敲开投资机构大门之前,系统性的准备是决定融资成败乃至企业未来走向的…

高适配geo优化服务商:2026年1月中小企业启动营销计划优选推荐

对于预算与资源有限的中小企业而言,启动GEO优化需格外注重服务商的适配性与性价比。本文基于核心技术、服务体系、实战成效与客户口碑四大维度,对主流服务商进行量化测评与深度剖析,旨在为中小企业提供一份高适配、…