DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28 - 实践

news/2025/10/4 12:26:22/文章来源:https://www.cnblogs.com/slgkaifa/p/19125481

DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28 - 实践

卷,卷起来了!

本周 AI 快讯 | 1 分钟速览

1️⃣ DeepSeek 发布 V3.1-Terminus :Agent 性能提升 28%,HLE 测试跃升全球第三,仅次于 Grok 4GPT-5,SimpleQA 准确率达 96.8%。

2️⃣ 阿里云栖大会七连发 :3800 亿 AI 基建投资起步,万亿参数 Qwen3-Max 对标 GPT-5,AIME 25 和 HMMT 数学测试满分 100 分。

3️⃣ ️ Kimi 推出 OK Computer :基于 K2 模型的 Agent 模式,可直接开发多页面网站、处理百万行数据、制作可编辑 PPT。

4️⃣ 字节豆包翻译大模型Doubao-Seed-Translation 支持 28 语言互译,性能比肩 GPT-4o,百万字符仅 1.20 元。

5️⃣ OpenAI 发布 ChatGPT Pulse:AI 从被动问答转向主动服务,为 Pro 用户生成个性化每日简报,CEO 称其为"最喜欢的功能"。

6️⃣ OpenAI 内测 GPT-Alpha :基于 GPT-5 模型打造,具备高级推理和工具使用能力,可执行网页浏览、图像编辑等复杂任务。

7️⃣ 谷歌推出 Mixboard :AI 创意画板工具,集成 Nano Banana 图像编辑模型,支持文本生成原创视觉内容。

8️⃣ 谷歌发布 AI 版 Androidify :结合 Gemini 2.5 FlashImagen 3Veo 3 模型,自拍秒变个性化安卓机器人。

9️⃣ 微软 365 引入 AnthropicClaude Sonnet 4Claude Opus 4.1 正式入驻 Copilot,打破 OpenAI 独家局面。

Meta 推出 Vibes 平台:首个纯 AI 生成内容的短视频平台,不支持上传个人视频,引发用户争议。


01|DeepSeek V3.1-Terminus 登场:HLE 测试跃升全球第三,Agent 性能提升 28%

9 月 22 日,DeepSeek 正式发布 V3.1-Terminus 版本更新,这是对 8 月发布的 V3.1 版本的优化,重点解决用户反馈的两大痛点。新版本显著改善了语言混杂问题,有效减少了中英文无规律切换和随机乱码现象,这一改进对跨语言应用场景尤为重要。在 Agent 能力方面,Code AgentSearch Agent 获得实质性提升——BrowseComp 网页导航测试从 30.0 跃升至 38.5,Terminal-bench 命令行交互从 31.3 提升至 36.7,SWE Verified 软件工程验证达到 68.4,SimpleQA 问答准确率更是飙升至 96.8。

技术架构上,Terminus 延续了 V3 系列的混合专家(MoE)设计,671B 总参数中激活 37B,支持高达 128K tokens 上下文。该版本保留了双模式切换能力:thinking mode 用于复杂多步推理,non-thinking mode 则专注快速响应。值得注意的是,在备受关注的 Humanity's Last Exam 基准测试中,Terminus 从 15.9 分跃升至 21.7 分,仅次于 Grok 4(25.4)和 GPT-5(25.3),位列全球第三。API 定价维持竞争优势,缓存命中时输入仅 0.5 元/百万 tokens,输出 12 元/百万 tokens。模型权重已在 Hugging Face 开源(MIT 协议),为开发者提供了一个在稳定性与成本效益之间取得平衡的实用选择。


02|阿里云栖大会"七连发":3800 亿 AI 基建投资起步,万亿参数 Qwen MAX 对标 GPT-5

9 月 24 日,在 2025 云栖大会上,阿里集团董事兼 CEO 吴泳铭宣布正在推进三年 3800 亿元的 AI 基础设施建设计划,并将持续追加更大投入。会上阿里通义发布 6 款新模型 + 1 个全新品牌,在模型智能、多模态能力、Agent 工具调用等方面实现多维突破。其中旗舰模型 Qwen3-Max 以 1.2 万亿总参数、120 亿激活参数的混合专家架构(MoE)刷新行业纪录,预训练数据量达 36 万亿 tokens,在数学推理测试 AIME 25 和 HMMT 中斩获满分 100 分,成为全球首个达成此成就的大模型;在 SWE-Bench Verified 编程测试中以 69.6 分登顶,超越 Claude Opus 4DeepSeek-V3.1

除了 Qwen MAX 的性能突破,本次发布阵容堪称豪华。全模态模型 Qwen3-Omni 首次实现音、视、文多模态混合训练而各项能力不降反升,音视频能力狂揽 32 项开源最佳性能 SOTA。视觉理解模型 Qwen3-VL-235B-A22B 已正式开源,在 32 项核心能力测评中超过 Gemini-2.5-ProGPT-5,能够像人一样操作手机和电脑界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchmark 上达到世界顶尖水平。图像编辑模型 Qwen-Image-Edit 实现了对图片中文字的精准编辑,支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作——真正做到"改字不崩脸、换装不走样"。

专项模型方面,编程模型 Qwen3-Coder 升级支持 256K 上下文,并强化了终端任务功能,Terminal Bench 性能大幅提升,推理速度更快、token 消耗更少。通义万相推出 Wan2.5-Preview,首次实现音画同步,10 秒 1080P 24fps 视频直接配人声、音效、音乐,音画对齐效果接近电影感,时长从 5 秒提升至 10 秒,支持复杂镜头控制和结构化提示词输入。全新发布的语音大模型家族通义百聆涵盖语音识别大模型 Fun-ASR 和语音合成大模型 Fun-CosyVoiceFun-ASR 基于数千万小时真实语音数据训练而成,可实时处理 10 多种语言;Fun-CosyVoice 提供上百种预制音色,适用于客服、销售、直播电商等场景,目前通义百聆开源模型的下载量已超 5.6 亿。


03|Kimi 发布 Agent 模式 OK Computer,可开发网站、分析百万行素材

9 月 25 日,月之暗面正式推出 Kimi 全新 Agent 模式 OK Computer(命名致敬 Radiohead 1997 年同名专辑),即日起开启灰度测试。该模式延续"模型即 Agent"理念,通过端到端训练 7 月发布的 Kimi K2 模型,让 AI 能够操作虚拟计算机完成复杂任务——从聊天对话直接生成多页面响应式网站、处理百万行数据并生成交互式仪表板、制作可编辑 PPT 等。系统原生支持文件系统、浏览器和终端操作,相比标准聊天模式能处理更多步骤、调用更多工具。

OK Computer 背后的 K2 模型采用 MoE 架构,拥有 1 万亿总参数、320 亿激活参数,包含 384 个专家模型(每个 token 激活 8 个),支持 128K 上下文窗口。在关键基准测试中表现优异:LiveCodeBench 达到 53.7%、SWE-bench Verified 达 65.8%、AceBench 为 76.5%,在自主编程、工具调用和数学推理等维度达到行业领先水平。首批体验资格优先开放给之前打赏过 Kimi 的用户,免费用户获得 3 次试用机会。月之暗面将这一功能定位为"AI 产品和工程团队一体化解决方案",标志着其在"高价值、长链条任务"领域的重要布局。


04|字节发布豆包翻译大模型,28 语言互译性能比肩 GPT-4o

9 月 22 日,字节跳动旗下火山引擎正式推出通用翻译大模型 Doubao-Seed-Translation,支持 28 种语言互译,覆盖中、英、日、韩、德、法、西、俄等主流语种。官方宣称中英翻译效果逼近 Deepseek-R1,通用多语言翻译效果超越或持平 GPT-4o / Gemini-2.5-Pro。最大亮点是其极具竞争力的定价策略:每百万字符输入仅需 1.20 元,输出为 3.60 元,为中小企业和开发者大幅降低了使用门槛。

Doubao-Seed-Translation 模型支持 4K 上下文窗口,最大输出长度可达 3K tokens,能够自动识别源语言并精准翻译。豆包翻译模型的最大特色之一是其强大的场景适配能力,无论是处理办公文档、古诗文、网络热词还是科技医疗领域的专业术语,都能精准应对,输出自然且无"翻译腔"的译文。值得注意的是,豆包团队此前在 7 月还开源了 Seed-X 系列 7B 参数翻译模型,显示出字节在翻译技术上的持续投入和多路线并进策略。


05|OpenAI 推出 ChatGPT Pulse,AI 助手从被动问答转向主动服务

9 月 25 日,OpenAI 正式发布 ChatGPT Pulse 预览版,标志着 AI 助手从被动响应向主动服务的重大转型。该功能目前仅向 ChatGPT Pro 订阅用户(月费 200 美元)的移动端开放,通过夜间异步分析用户的聊天历史、日历安排和邮件内容,自动生成 5-10 张个性化的视觉卡片式每日简报。CEO Sam Altman 称其为"迄今最喜欢的 ChatGPT 功能"。并且,用户可通过点击"curate"按钮定制内容方向,如要求周五本地活动汇总或新技能学习建议。

Pulse 的设计理念强调实用性而非屏幕时间——每日更新仅刷新一次,卡片内容 24 小时后自动消失(除非用户主动保存),刻意避免社交媒体式的无限滚动。功能支持连接 Gmail 和 Google Calendar 获取更多上下文,可自动起草会议议程、提醒购买生日礼物或推荐即将旅行的餐厅。OpenAI 应用 CEO Fidji Simo 表示,这是将"原本只有富人才能负担的支持水平"普及给所有人的第一步。由于计算资源限制,该功能将先向 Plus 用户(月费 20 美元)扩展,最终目标是覆盖所有用户。


06|OpenAI 内测 GPT-Alpha 智能体,基于 GPT-5 模型打造高级推理能力

9 月 24 日,科技媒体 BleepingComputer 报道,OpenAI 正在内部测试名为 GPT-Alpha 的新型 AI 智能体,该系统基于 GPT-5 模型构建,专为"高级推理和工具使用"而设计。这一消息源于 X 用户 Clay Malott 的意外发现——他在 ChatGPT 界面的 Alpha Models 部分看到了标记为"Agent with Truncation"的选项,随后该功能迅速被撤下。根据泄露的系统提示词,GPT-Alpha 能够执行网页浏览、生成和编辑图像、编写调试代码、创建编辑文档/电子表格/幻灯片等复杂任务,并设有严格的隐私保护约束。

这一泄露与 OpenAI CEO Sam Altman 上周的预告相吻合——他曾表示公司即将推出"计算密集型"新功能,由于成本高昂,部分功能将仅向 Pro 订阅用户(月费 200 美元)开放或收取额外费用。业内分析认为,GPT-Alpha 代表着 ChatGPT 从单纯的对话机器人向自主 AI 助手的重大转型,能够在数字环境中直接执行操作而非仅提供文本响应。除 GPT-Alpha 外,用户还发现了代号"Pineapple"的神秘功能,可能与改进后续响应或工作流自动化相关,显示 OpenAI 正在积极测试扩展 ChatGPT 功能边界的多项新技术。


07|谷歌推出 Mixboard 实验性 AI 创意画板,主打"开放画布"视觉构思

9 月 24 日,谷歌通过 Google Labs 正式推出实验性 AI 工具 Mixboard,将传统情绪板(mood board)概念与生成式 AI 深度融合。不同于 Pinterest 的内容聚合模式,Mixboard 采用"开放画布"理念,用户只需输入文本提示如"复古都市咖啡馆"或"秋季客厅派对",系统便能在数秒内生成原创视觉内容并自动排布成板。该工具集成了谷歌 8 月刚发布的 Nano Banana 图像编辑模型(正式名称 Gemini 2.5 Flash Image),这一模型在 LMArena 平台被评为全球顶级图像编辑模型,支持通过自然语言指令进行复杂编辑。

Mixboard 献出了极具灵活性的创作流程。用户可以上传个人图片与 AI 生成内容混合编辑,通过"regenerate"一键生成新版本,或使用"more like this"快速探索相似方向。更有意思的是,系统能根据画板上的图像自动生成描述性文本,为创意项目提供标签说明。目前该应用仅在美国作为公开测试版免费提供,与 Canva Magic Studio、Adobe Firefly 等竞品相比,Mixboard 更强调"混乱而迭代"的探索过程,而非追求精美成品输出——这种设计理念反映了谷歌对 AI 辅助创意软件的独特理解,即把 AI 定位为激发灵感的协作伙伴,而非单纯的内容生成器。


08|谷歌推出 AI 版 Androidify,自拍秒变个性化安卓机器人

谷歌于本月正式发布全新 AI 驱动的 Androidify 应用和网页版,让用户通过上传自拍或输入文字提示创建个性化安卓机器人形象。该功能整合了谷歌多个 AI 模型:Gemini 2.5 Flash 用于生成照片描述、Imagen 3 微调版本生成机器人形象、Veo 3 视频模型在特定情况下制作动画。用户可为机器人添加配件(如雨伞、护目镜、帽子),选择不同风格主题(如星空观察者、游戏玩家、旅行者、健身达人),并设置多种输出格式包括壁纸、横幅、贴纸等。

作为特别功能,9 月每个周五限量开放 8 秒动画视频生成,由 Veo 3 模型驱动,让静态机器人形象动起来。技术层面,应用采用 Jetpack Compose 构建界面、Firebase AI Logic SDK 访问 AI 模型、CameraX 配合 ML Kit 姿势检测实现智能拍照引导。这是继 2020 年原版 Androidify 下架后的 AI 重制版,不仅展示了谷歌在生成式 AI 领域的技术实力,也为用户提供了有趣的个性化表达工具。应用已在 Google Play 商店和 androidify.com 网站上线,完全免费使用。


09|微软 365 Copilot 引入 Anthropic Claude 模型,打破 OpenAI 独家局面

9 月 24 日,微软宣布在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4Claude Opus 4.1 模型,正式开启多模型策略,结束了对 OpenAI 的单一依赖。企业用户现可在 Researcher 智能体和 Copilot Studio 中选择使用 Claude 或 OpenAI 模型。其中,Researcher 智能体可由 Claude Opus 4.1 驱动,适用于构建市场策略、分析产品趋势或创建季度报告等深度研究任务;Copilot Studio 则同时支持两款 Claude 模型,用于构建和自定义企业级智能体。

这一变化要求管理员在 Microsoft 365 管理中心启用后方可使用,目前凭借 Frontier 早期访问计划向获得许可的客户推出,预计年底前全面投产。值得注意的是,Anthropic 模型运行在 Amazon AWS 和 Google Cloud 而非微软云环境,并遵循 Anthropic 的服务条款。微软业务与行业 Copilot 总裁 Charles Lamanna 表示,这只是开始,Anthropic 模型将为 Microsoft 365 Copilot 带来更强大的体验。此举反映了微软的多模型编排策略——根据任务、成本和合规要求选择最合适的模型,而非所有请求都使用同一模型,标志着企业 AI 应用进入更灵活的多选择时代。


10|Meta 推出 Vibes 短视频平台,所有内容均由 AI 生成

9 月 25 日,Meta 正式发布 Vibes 短视频平台,这是首个完全由 AI 生成内容的社交视频平台,目前已在 Meta AI 应用内上线,覆盖北美、澳大利亚、新西兰、英国等市场。与 TikTok、Instagram Reels 等平台的关键区别在于,Vibes 不支持上传个人视频,所有内容必须通过 AI 工具生成。Meta 与 Midjourney 和 Black Forest Labs 合作提供生成技术,用户可以通过文本提示创建视频、混音现有内容、添加音乐和调整风格,生成内容可跨平台分享至 Instagram 和 Facebook。

该平台推出后迅速引发争议,扎克伯格在 Instagram 发布的展示视频下,热门评论包括"没人想要这个"和"老哥在自己的应用上发 AI 垃圾"等负面反馈。业内人士指出,Vibes 是 Meta 在 AI 领域激进布局的体现——今年 6 月,该公司成立 Meta Superintelligence Labs(超级智能实验室),斥资 143 亿美元收购 Scale AI 49% 股份,并以高达 1 亿美元签约金挖角顶尖研究人员。尽管 Meta 第二季度营收达 475 亿美元,但其 AI 战略能否通过纯 AI 生成内容创造新的用户价值,还是会像元宇宙投资那样成为昂贵的试验,仍有待市场验证。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。


精选推荐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wejianzhan是什么网站企业解决方案参考网站

背景:写的算法合并到项目组代码,编译发现一些以前没积累过的错误,这里记录下,也供大家参考。 一、问题1 // 每个类都有单独的.h .cpp class A; class B : public A {// ... }; class C : public A {// ... };若在B.h中引用了一个…

网站建设修饰商品wordpress批量导入页面

文章目录 🍋引言🍋队列的定义🍋队列的实现🍋队列的应用🍋练习题🍋结语 🍋引言 队列(Queue)是计算机科学中一种重要的数据结构,它常用于各种应用程序中&#x…

公司做了网站怎么做推广本地做织梦网站

原文来自http://note.youdao.com/share/web/file.html?id236896997b6ffbaa8e0d92eacd13abbf&typenote 我怕链接会失效,故转载此篇文章。通过这篇文章,我对之前疑惑的地方有了直观的理解,很多地方并没有自己动手实践,所以这篇…

【做题记录】CF2600左右有趣的思维题1

A. Latin Square 考虑维护三元组 \((i,j,a_{i,j})\)。例如:R 操作就是变成了 \((i,j+1,a_{i,j})\);I 操作就是变成了 \((i,a_{i,j},j)\)。时间复杂度 \(O(m+n^2)\)。Code #include<bits/stdc++.h> #define ll …

pdf翻译

pdf翻译 https://github.com/Byaidu/PDFMathTranslate?tab=readme-ov-file

OpenEuler 25.03 installed UKUI but cant run msedge and chrome

[root@OpenEulerWD Desktop]# pwd /root/Desktop[root@OpenEulerWD Desktop]# cat google-chrome.desktop microsoft-edge.desktop | grep stable Exec=/usr/bin/google-chrome-stable %U Exec=/usr/bin/google-chrom…

网站为什么被百度k了关于wordpress更新时无法创建目录

Spring Boot 注解 PostConstruct 介绍 文章目录 Spring Boot 注解 PostConstruct 介绍一、基本介绍二、PostConstruct 的执行时机Spring Bean 的生命周期PostConstruct 的确切执行时机执行顺序示例重要注意事项 三、使用场景及代码示例1. 初始化资源&#xff1a;比如打开数据库…

实用指南:iPhone美区账号登录指南:轻松下载ChatGPT应用

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

德国诺莫斯手表网站电子商务网站建设与管理习题答案

http://www.imooc.com/article/285246?block_idtuijian_wz 最近在设计一款进销存系统的时候&#xff0c;遇到一个分类的设计问题&#xff0c;就是如何将分类设计成数据库里的表&#xff0c;怎么样设计才比较灵活&#xff1f; 举个例子&#xff0c;一级分类&#xff1a;生鲜类&…

推广方案怎么写模板网站内容seo

汇川Easy系列以太网通讯中(MODBUSTCP,plc做主站),终于可以不用使用指令就可以完成了,全程通过简单的配置就可通讯。本文将通过EASY系列PLC与调试助手之间完成此操作。具体演示如下; 关于主站和从站的介绍 A/请求:即主动方 向被动方发送的一个要求的信息。 B/主站:发…

网络调整config.xml的android.mk解析

网络调整config.xml的android.mk解析pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…

【Android】RuntimeShader 应用

1 简介 ​ RuntimeShader 是 Android 13(T)中新增的特性,用于逐像素渲染界面,它使用 AGSL(Android Graphics Shading Language)编写着色器代码,底层基于 Skia 图形渲染引擎。官方介绍详见 → RuntimeShader。…

一个公司多个网站做优化程序开发平台

1&#xff0c;已经创建了通用树结构&#xff0c;有必要创建另一种树结构吗&#xff1f; 2&#xff0c;简化树就直接减少结点中孩子的数量&#xff0c;但是这样树还能通用吗&#xff1f; 3&#xff0c;通用树结构的回顾&#xff1a; 1&#xff0c;双亲孩子表示法&#xff1a; 1&…

【Rive】rive-android源码分析

1 前言 ​ 本文基于 rive-android 10.1.0 进行源码分析,主要介绍 Rive 的渲染类型、RendererType 透传流程、Surface 透传流程、渲染流程、启动渲染流程、暂停渲染流程等内容。 ​ rive-android 类图框架如下。…

惠州专业网站建设价格wordpress网站维护教程

技术复盘--git 资料地址原理图安装配置基本命令分支命令对接gitee练习:远程仓库操作 资料地址 学习地址-B站黑马&#xff1a;https://www.bilibili.com/video/BV1MU4y1Y7h5 git官方&#xff1a;https://git-scm.com/ gitee官网&#xff1a;https://gitee.com/ 原理图 说明&am…

zkSync Era主网上线:首个zkEVM全面开放的技术突破

zkSync Era主网正式对外开放,这是全球首个完全开放的zkEVM解决方案。文章详细介绍了其独特的技术架构,包括原生账户抽象、LLVM编译器、数据压缩和超扩展性设计,以及经过多重安全审计的系统安全保障机制。gm zkEVM!…

企业网站开发知名品牌有哪些建设银行网站点击次数

公司简介 陕西集群物联网服务管理股份有限公司旗下的“集群e家”是专注于社区商圈O2O服务的平台&#xff0c;为社区&#xff08;乡村&#xff09;家庭提供创新的家庭消费服务及消费体验。集群e家智慧生活是以社区&#xff08;乡村&#xff09;为中心&#xff0c;以“互联网”的…

免费建商城网站快速网站seo效果

【Java】全套云HIS&#xff08;医院信息管理系统&#xff09;可对接医保 采用云端SaaS模式部署 SaaS 模式的云 HIS 更适用于基层医疗机构&#xff0c;而传统的 HIS 已经在大中型医疗机构大规模应用。过去&#xff0c;国内的大中型医疗机构投入了大量的资金来进行信息化系统建设…

建站推广网站收费做网站

#基础概念# #入门 数据库的主要分类 关系型数据库&#xff08;RDBMS&#xff09; 数据以表格形式存储&#xff0c;通过预定义的关系模型建立数据间的连接&#xff0c;使用SQL作为查询语言。常见的例子包括MySQL、Oracle、SQL Server、PostgreSQL、IBM DB2等。 非关系型数据库…