Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生

news/2025/9/30 12:04:39/文章来源:https://www.cnblogs.com/Vsery/p/19120711

论卷编程,还得看 Claude。
就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。

Claude

先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。

Chart showing frontier model performance on SWE-bench Verified with Claude Sonnet 4.5 leading

更离谱的是,它能连续专注干活超过 30 小时。
好好好,AI 取代人类的优势又 +1 了。

比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。

用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。

Benchmark table comparing frontier models across popular public evals

比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。

Finance

有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。

Claude Code terminal interface showing welcome screen with recent project activity and new features including agent capabilities and security review tools, running Sonnet 4.5.

具体来看:

  • Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定
  • 终端界面翻新,还发布了原生 VS Code 插件
  • Claude API 增加了上下文编辑功能和记忆工具
  • 代码执行和文件创建现在直接整合到对话里

甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。
而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。

Claude Agent SDK

今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。

网友 @vasumanmoza 体验完直接发帖:

「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。

Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。

知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。

Evry

性能强是一方面,安全性也得跟上。

据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。

靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。

Misaligned

比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。

在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。

不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。
附上传送门 claude.ai/imagine。

Chat

毫无疑问,今年的 AI 赛道依旧是卷编程的一年。

目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。

甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。

此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」

Claude

不过有一说一,Anthropic 自己眼下也有麻烦要解决。

过去两个月,Claude 系列模型刚经历了一场「降智」风波。 用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。

虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。
这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922810.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

香橙派5pro驱动开发(一)

前言前段时间买了一个orangepi5pro开发板,准备学习驱动开发,但是网上教程基本都需要在自己电脑安装虚拟机,下载内核源码,编译内核后才能进行驱动开发,但我想直接在【开发板】上进行开发,不采用虚拟机!!!环境准…

做网站西安哪家好wordpress获取文章第一张图片

3.3.2vector容器 vector的数据安排及操作方式,与array非常相似,两者唯一差别在于空间的运用的灵活性。Array是静态控件,一旦配置了就不能改变,要换大一点或者小一点的空间,可以,一切琐碎得由自己来&#x…

网站开发用什么编程语言网站说服力营销型网站策划 pdf

毋庸置疑,Python越来越被认可为程序员新时代的风口语言。无论是刚入门的程序员,还是年薪百万的 BATJ 的大牛都无可否认:Python的应用能力是成为一名码农大神的必要项。 所以,很多程序员把Python当做第一语言来学习。 但对于Python…

Python 脚本遇到 SSL 证书问题

调用 deepseek api,遇到 SSL 证书问题,应该是 SSL 不认公司 firewall 的证书。 出错内容:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self-signed certificate in certificate chain (_ssl.c:10…

构建用户-物品-场景的“关系宇宙 - 教程

构建用户-物品-场景的“关系宇宙 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

商城类的网站怎么做wordpress畅言插件

本人并不精通易语言,只是对其进行一定了解后做一个简单的总结。直接新建一个易语言模块,然后添加子程序即可。子程序当然可以随意命名,实际上,易语言的子程序就和c语言的函数,java中的方法一样(实际上,java…

sa-token开发时遇到的问题

背景 我的项目的登录接口在登录时会去获取用户的菜单,但是我在获取菜单的方法里逻辑写错了(登录接口不是我负责的,我写的是菜单), 我使用UserUtils.getCurrentTenantId()去获取用户的信息(它会从session里获取用…

HR如何摆脱入离职事务性内耗?组织管理系统助力聚焦人才价值挖掘

摘要:HR常深陷入离职手续、数据核对等事务性泥潭,战略规划等核心价值工作被挤占。流程繁杂、数据孤岛、沟通低效及合规风险加剧其负担。红海云eHR等组织管理系统通过流程自动化、数据一体化、自助协同与合规风控破局…

US$140 Yanhua Mini ACDP PCF Key Adapter for VW MQB IMMO Key Programming

Yanhua Mini ACDP PCF Key Adapter for VW MQB IMMO Key ProgrammingThis PCF-key Apdater is necessary when update your ACDP Module6 to gain the IMMO function.Support IMMO List:A3: MQB 2014.06-Q2: MQB 2014.…

社区网站免费制作怎么做网络直播卖衣服的网站

Pectra很可能是最后几个会直接影响用户和ETH持有者的升级之一。 原文:Galaxy Research;编译:Golem;编辑:郝方舟 出品 | Odaily星球日报(ID:o-daily) 编者按:以太坊 Pectr…

恩施市网站建设wordpress博客无法显示

可导入软件的矢量图格式如图,是shp文件,由6个文件构成: 而从Mapgis中导出的shp格式缺少文件,需要将其导入ArcGIS再次导出,补充相关文件。 另外,软件默认的坐标系是WGS-84,不过其他坐标系也可以…

网站开发合同是否是技术合同中文企业网站模板免费下载

SQL Server 中经常需要写一些查询,关联好多张表,显示无数个列。如果使用视图设计器,可以大大提高效率,同是减少差错。1. 启动视图设计器为数据库“新建视图”,将启用视图设计器。2. 添加表在起始界面,将出现…

里克尔梅张 重庆最好的古典前腰

里克尔梅张 重庆最好的古典前腰 第一次见到里克尔梅是在十年前,更准确的说是十年六个月又几天之前。那个时候的里克尔梅还不能叫里克尔梅,最多只能叫小梅。 小梅的工位在我后面,有四五米左右的距离。小梅姓张,个不…

基于SpringAI构建大模型应用

1. 背景 在这里,我主要分享的是在应用层面大模型相关的技术,假如你已有一个现成的大模型接口,无论是符合OpenAI规范的,还是各家公司一些自己的接口,例如Gemini,Deepseek,通义千问,问心一言等,让用这些大模型来…

C# TCP - 串口转发 - 实践

C# TCP - 串口转发 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &…

Java EE初阶启程记04---线程的状态 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

外贸先做网站还是开公司网站备案信息注销

电脑是一部百科全书,有它相伴能滋润人生、丰富人生,能使人和世界零距离接触。以下是小编给大家提供的关于学电脑作文,欢迎大家阅读参考!学电脑作文1我这个人哪,什么都想试一试,什么都想学一学。看到妈妈用缝纫机做衣服…

US$44 YH Remote Key Tester Frequency/Infrared IR

YH Remote Key Tester Frequency/Infrared IRIt can work alone and work together with Yanhua Mini ACDP, both ok.YH Remote Key Tester Frequency/Infrared IR can detect frequency of car remote control as wel…

【星海出品】RabbitMQ 死信 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【研发规范】Git 提交(commit)、CodeReview规范

本文将分为三个部分:为什么需要提交规范? 提交规范详解(核心内容) 与 Code Review 流程的结合1. 为什么需要提交规范? 在 Code Review 前,如果提交的代码杂乱无章,审查者会非常痛苦:理解成本高:审查者需要花费…