DeepSeek 再发新论文,智谱登顶全球榜首,Claude 开始接管电脑!| AI Weekly 1.12-1.18

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣🧠 DeepSeek 发布 Engram 论文:提出条件记忆新稀疏轴,将静态知识与动态推理解耦,Engram-27B在等参数约束下全面超越 MoE 基线。

2️⃣🖼️ 智谱联合华为开源 GLM-Image:首个全国产算力训练的 SOTA 文生图模型,开源不到 24 小时登顶 Hugging Face Trending 榜首。

3️⃣📱 千问 App 月活破亿:全面接入淘宝、支付宝、飞猪、高德等阿里生态,上线超 400 项 AI 办事功能,率先实现端内闭环 AI 购物。

4️⃣🐱 美团开源 LongCat-Flash-Thinking-2601:560B 参数 MoE 架构,AIME-25 满分,部分能力超越Claude-Opus-4.5-Thinking

5️⃣🎬 Vidu 上线一键生成 MV:多智能体协作分钟级出片,全程无需人工干预,相当于端到端虚拟制片厂。

6️⃣📺 ChatGPT 将投放广告:OpenAI 宣布在免费版和 Go 版测试广告功能,Plus、Pro 及企业版不受影响。

7️⃣💵 ChatGPT Go 全球上线:8 美元/月,仅为 Plus 的 40%,提供准 Plus 体验但会展示广告。

8️⃣🌐 ChatGPT Translate 低调上线:无需登录即可使用,主打理解语气和上下文,支持一键风格调整。

9️⃣🤖 Anthropic 发布 Claude Cowork:定位「Claude Code for the rest of your work」,让普通用户也能使用 AI Agent 自主操作文件。

1️⃣0️⃣✨ Gemini 推出「个人智能」功能:跨应用整合 Gmail、Photos、YouTube 等用户数据,无需指定来源即可理解上下文。

1️⃣1️⃣🔤 谷歌开源 TranslateGemma:基于Gemma 3架构,12B 版本超越 27B 基线,支持 55 种语言互译。

1️⃣2️⃣⚡ xAI Colossus 2 投入运行:全球首个吉瓦级 AI 训练集群,部署超 55 万块 NVIDIA GPU,采购成本约 180 亿美元。


01|DeepSeek 发布 Engram 论文,让大模型「查字典」取代「硬算」

1 月 12 日,DeepSeek 发布论文「Conditional Memory via Scalable Lookup」,提出 Engram 模块,将经典 N-gram 嵌入现代化为 O(1) 常数时间查找的条件记忆系统。该模块与 MoE 的条件计算形成互补,专门处理静态模式检索,让神经网络专注于复杂推理。论文由创始人梁文峰共同署名,代码已在 GitHub 开源。

Engram 的三项核心技术包括 Tokenizer 压缩(将「Apple」和「apple」映射为同一概念,减少 23% 词汇量)、多头哈希(避免不同模式的碰撞)以及上下文感知门控(根据当前语境过滤检索结果)。实验显示最优配比为 75-80% 参数用于计算、20-25% 用于记忆。Engram-27B在知识、推理、代码和数学任务上均超越同参数 MoE 基线,复杂推理准确率从 70% 提升至 74%。该模块支持将大规模嵌入表卸载至主机内存而非 GPU 显存,推理开销极低,被视为可能引发新一轮「DeepSeek 时刻」的架构突破。


02|智谱联合华为开源「GLM-Image」,首个全国产算力训练的 SOTA 文生图模型

1 月 14 日,智谱联合华为开源图像生成模型GLM-Image,基于昇腾 Atlas 800T A2 和昇思 MindSpore 框架完成从数据预处理到大规模训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型。开源不到 24 小时即登顶 Hugging Face Trending 榜首,系国产芯片训练模型首次在国际开源社区获此成绩。

模型采用「自回归 + 扩散解码器」混合架构,融合 9B 自回归模型与 7B DiT 解码器,在复杂指令理解和汉字生成上表现突出,原生支持 1024 至 2048 尺寸任意比例输出。API 调用价格 0.1 元/张,已在 GitHub 和 Hugging Face 全面开源。


03|「千问 App」接入阿里全生态,月活破亿后上线 400 项 AI 办事功能

1 月 15 日,千问 App 宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,实现点外卖、购物、订机票等端内闭环交易。用户只需一句话指令,千问即可调用淘宝闪购下单并通过支付宝「AI 付」完成支付,无需跳转其他 App。谷歌此前宣布与沃尔玛的 AI 购物合作计划尚未落地,千问率先实现了多品类 AI 购物功能。

千问 C 端事业群总裁吴嘉透露,上线不到 2 个月,千问月活已突破 1 亿。此次升级同步上线超 400 项 AI 办事功能,涵盖购物推荐、出行规划、政务服务等场景,还接入支付宝 50 项民生服务。「任务助理」功能已开始定向测试,支持报表整理、研报撰写等复杂任务,测试结束后将免费开放。


04|美团开源「LongCat-Flash-Thinking-2601」,部分能力超越 Claude Opus 4.5

1 月 16 日,美团 LongCat 团队发布并开源LongCat-Flash-Thinking-2601,总参数 5600 亿,激活参数约 270 亿,采用 MoE 架构。该模型在智能体工具调用、搜索和数学推理等核心评测中均达到开源 SOTA,在复杂随机任务的泛化能力上超越Claude-Opus-4.5-Thinking

模型核心创新是「重思考」模式,可同时启动 8 条独立推理路径并行思考,再通过强化学习优化的总结模块进行合成迭代。具体成绩包括 AIME-25 满分 100、IMO-AnswerBench 86.8 分、BrowseComp 73.1 分均为当前最优。模型权重以 MIT 协议开源,可在龙猫官网免费体验。


05|生数科技「Vidu」上线一键生成 MV 功能,多智能体协作分钟级出片

1 月 14 日,生数科技宣布 Vidu AI 开放平台上线「一键生成 MV」功能。该工具基于多智能体系统架构,用户只需提供音乐、最多 7 张参考图和文本指令,系统即可在分钟级时间内自动输出叙事连贯、音画同步的完整 MV。

系统内部包含四个协作智能体:导演智能体解析音乐结构与歌词,规划叙事脉络;分镜脚本智能体生成景别、运镜和时长描述;视觉生成智能体基于参考图保持角色和风格一致性;剪辑合成智能体负责节奏卡点、转场特效和动态字幕。全程无需人工干预,相当于一个端到端的虚拟制片厂。Vidu 目前全球用户累计生成视频数已突破 4 亿条。


06|OpenAI 确认 ChatGPT 将投放广告,免费版和 Go 版率先试水

1 月 16 日,OpenAI 宣布将在未来几周内开始测试 ChatGPT 广告功能,面向美国成年用户的免费版和 8 美元/月的 Go 版。Plus、Pro、Business 和 Enterprise 订阅不受影响。广告将以「Sponsored」标签显示在回答底部,基于当前对话内容进行个性化推荐,但不会出现在健康、心理健康和政治等敏感话题中。

这是 OpenAI 商业模式的重大转向。公司承诺广告不会影响 ChatGPT 的回答内容,也不会向广告商出售用户数据,用户可随时关闭个性化或清除广告相关数据。CEO Sam Altman 曾称 AI 与广告结合「令人不安」,但面对未来十年 1.4 万亿美元的基础设施支出和 8 亿月活用户的变现压力,广告成为不得不走的一步。


07|「ChatGPT Go」全球上线,8 美元/月提供准 Plus 体验

1 月 16 日,OpenAI 宣布 ChatGPT Go 订阅方案正式面向美国及全球市场开放,定价 8 美元/月,仅为 Plus 版 20 美元/月的 40%。该方案最早于去年 8 月在印度推出,随后覆盖 171 个国家,此次扩展至全球所有 ChatGPT 可用地区。

Go 版提供消息发送、图像生成、文件上传和记忆功能,核心体验接近 Plus,但会展示广告。对于不想付费又嫌免费版限制太多的用户,Go 版填补了中间档位的空白。Plus、Pro 及企业版用户不受广告影响。


08|OpenAI 低调上线「ChatGPT Translate」,直接对标谷歌翻译

1 月 14 日,OpenAI 悄然推出独立翻译工具 ChatGPT Translate,可直接访问,无需登录或付费。界面采用与 Google Translate 类似的双栏布局,支持几十种语言的文本翻译,具备自动语言检测功能,官方称还将支持语音和图片翻译。

与传统翻译工具不同,ChatGPT Translate 主打「理解语气、习语和上下文」,提供一键风格调整,可将译文改写为商务正式、学术风格或儿童友好版本。不过目前功能尚不完整,图片和文件翻译暂未开放,语言数量也远少于 Google Translate 的 240 种。这次低调上线可能是 OpenAI 在正式发布前的测试阶段。


09|Anthropic 发布「Claude Cowork」,将 Claude Code 能力扩展到普通用户

1 月 12 日,Anthropic 发布 Claude Cowork,定位为「Claude Code for the rest of your work」。用户只需授权 Claude 访问电脑上的特定文件夹,即可让 AI 自主读取、编辑和创建文件,无需命令行操作。典型场景包括整理下载文件夹、从收据截图生成费用表格、从散乱笔记起草报告等。最初仅面向 Max 订阅用户开放,1 月 16 日已扩展至 20 美元/月的 Pro 用户。

Cowork 基于 Claude Agent SDK 构建,底层架构与 Claude Code 相同,通过 Apple VZVirtualMachine 实现文件系统沙盒隔离。Anthropic 透露,整个产品由团队使用 Claude Code 在约 10 天内完成开发。目前仅支持 macOS,Windows 版本尚无明确时间表。Anthropic 在公告中坦承提示注入攻击和误删文件的风险仍存在,建议用户给出明确指令并谨慎授权敏感文件。


10|谷歌 Gemini 推出「个人智能」功能,跨应用整合用户数据提供个性化回答

1 月 14 日,谷歌宣布 Gemini 新增「Personal Intelligence」功能,可连接 Gmail、Google Photos、YouTube 和 Search,跨应用整合用户数据进行推理,无需用户指定数据来源即可理解上下文。例如询问轮胎规格时,Gemini 不仅能查到参数,还会根据 Photos 中的家庭旅行照片推荐全天候轮胎,甚至从照片中提取车牌号。

该功能默认关闭,用户可自主选择连接哪些应用。谷歌强调不会直接使用 Gmail 邮箱或相册内容训练模型,仅在生成回答时引用相关数据。目前面向美国 Google AI Pro 和 Ultra 订阅用户开放测试,后续将扩展至免费用户和更多国家。


11|谷歌开源「TranslateGemma」翻译模型,12B 版本性能超越 27B 基线

1 月 15 日,谷歌发布基于Gemma 3架构的开源翻译模型系列TranslateGemma,提供 4B、12B 和 27B 三种参数规模,支持 55 种语言互译。在 WMT24++ 基准测试中,12B 版本的 MetricX 得分为 3.60,超越 27B 基线模型的 4.04,错误率降低约 26%;4B 版本性能与 12B 基线相当,可在手机端运行。

模型通过两阶段微调训练,先在混合人工翻译和 Gemini 生成的高质量合成数据上进行监督微调,再通过强化学习优化翻译质量。TranslateGemma继承了Gemma 3的多模态能力,无需额外训练即可翻译图像中的文字。4B 版本面向移动端部署,12B 可在消费级笔记本运行,27B 需单卡 H100 或 TPU。模型已在 Kaggle、Hugging Face 和 Vertex AI 开放下载。


12|「xAI Colossus 2」正式投入运行,成全球首个吉瓦级 AI 训练集群

1 月 17 日,马斯克宣布 xAI 的 Colossus 2 超级计算机已投入运行,成为全球首个达到 1 吉瓦功率的 AI 训练集群。该设施位于田纳西州孟菲斯,部署超过 55 万块 NVIDIAGB200GB300GPU,采购成本约 180 亿美元。4 月将升级至 1.5 吉瓦,最终目标是容纳 100 万块 GPU。

这一规模远超 Colossus 1 的 23 万块 GPU 和 300 兆瓦功率。1 吉瓦相当于 75 万美国家庭的用电量,为解决电力瓶颈,xAI 在密西西比州南黑文自建天然气发电厂并部署 Tesla Megapack 储能系统。NVIDIA CEO 黄仁勋曾评价 Colossus 的建设速度「超人类」,首期工程仅用 122 天完成,而行业平均需要 4 年。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1177423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

B站视频下载神器:一键保存4K超清大会员专属内容

B站视频下载神器:一键保存4K超清大会员专属内容 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 还在为无法离线观看B站精彩…

HY-MT1.5-1.8B优化技巧:提升翻译流畅度

HY-MT1.5-1.8B优化技巧:提升翻译流畅度 1. 引言 1.1 业务场景描述 在企业级机器翻译应用中,模型的输出质量不仅取决于其原始训练效果,更依赖于推理过程中的精细化调优。Tencent-Hunyuan/HY-MT1.5-1.8B 是一款基于 Transformer 架构构建的高…

DCT-Net部署成本计算:按需付费与预留实例比较

DCT-Net部署成本计算:按需付费与预留实例比较 1. 背景与问题定义 随着AI生成内容(AIGC)在虚拟形象、社交娱乐和数字人等场景的广泛应用,人像卡通化技术逐渐成为前端个性化服务的重要组成部分。DCT-Net(Domain-Calibr…

网易云音乐美化插件技术解析:5个核心优化技巧实现专业级播放体验

网易云音乐美化插件技术解析:5个核心优化技巧实现专业级播放体验 【免费下载链接】refined-now-playing-netease 🎵 网易云音乐沉浸式播放界面、歌词动画 - BetterNCM 插件 项目地址: https://gitcode.com/gh_mirrors/re/refined-now-playing-netease …

OpenCV DNN部署实战:WebUI集成教程

OpenCV DNN部署实战:WebUI集成教程 1. 引言 1.1 AI 读脸术:从图像中提取人脸属性信息 在计算机视觉领域,人脸分析是一项基础且广泛应用的技术。其中,性别识别与年龄估计作为典型的人脸属性分析任务,在智能安防、用户…

操作指南:如何在新系统中正确部署Multisim数据库

如何在新系统中正确部署Multisim数据库:从问题到实战的完整指南你有没有遇到过这样的情况——刚装好Multisim,满怀期待地打开软件,结果弹出一个刺眼的错误提示:“multisim数据库无法访问”?元器件库加载失败、自定义模…

FramePack视频压缩神器:让静态图片瞬间动起来的神奇魔法

FramePack视频压缩神器:让静态图片瞬间动起来的神奇魔法 【免费下载链接】FramePack 高效压缩打包视频帧的工具,优化存储与传输效率 项目地址: https://gitcode.com/gh_mirrors/fr/FramePack 还在为视频文件体积过大而烦恼吗?想要把普…

WindowResizer完全指南:3分钟学会强制调整任意窗口大小

WindowResizer完全指南:3分钟学会强制调整任意窗口大小 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具 项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 还在为那些无法拖拽调整大小的软件窗口而烦恼吗?Win…

智能用户画像分析器:重新定义B站评论区背景识别的终极工具

智能用户画像分析器:重新定义B站评论区背景识别的终极工具 【免费下载链接】bilibili-comment-checker B站评论区自动标注成分,支持动态和关注识别以及手动输入 UID 识别 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-comment-checker …

图像转C数组终极指南:5步实现嵌入式开发图像集成

图像转C数组终极指南:5步实现嵌入式开发图像集成 【免费下载链接】image_to_c Convert image files into C arrays of uint8_t for compiling into your project 项目地址: https://gitcode.com/gh_mirrors/im/image_to_c 图像转C数组工具是嵌入式开发中不可…

Starward启动器:米哈游游戏终极管家,一键解锁全新体验

Starward启动器:米哈游游戏终极管家,一键解锁全新体验 【免费下载链接】Starward Game Launcher for miHoYo - 米家游戏启动器 项目地址: https://gitcode.com/gh_mirrors/st/Starward 还在为原神、崩坏:星穹铁道、绝区零等米哈游游戏…

Supertonic入门指南:从环境配置到首次语音生成

Supertonic入门指南:从环境配置到首次语音生成 1. 引言 1.1 学习目标 本文旨在为开发者和AI技术爱好者提供一份完整的Supertonic入门教程,帮助您从零开始完成环境搭建,并成功实现首次本地文本转语音(TTS)生成。通过…

5分钟部署Qwen3-VL-2B视觉机器人,零基础玩转AI图片理解

5分钟部署Qwen3-VL-2B视觉机器人,零基础玩转AI图片理解 1. 引言:让AI“看懂”世界,从一张图开始 1.1 为什么需要视觉语言模型? 传统大语言模型擅长处理文本任务,但在面对图像时却束手无策。而现实世界中&#xff0c…

HY-MT1.5-1.8B代码注释翻译:开发者工具链集成实战

HY-MT1.5-1.8B代码注释翻译:开发者工具链集成实战 1. 引言 随着多语言内容在全球范围内的快速增长,高质量、低延迟的翻译服务已成为众多应用场景的核心需求。特别是在边缘计算和实时交互场景中,模型不仅需要具备出色的翻译能力,…

金融数据接口库AKShare深度应用指南

金融数据接口库AKShare深度应用指南 【免费下载链接】akshare 项目地址: https://gitcode.com/gh_mirrors/aks/akshare AKShare作为Python生态中备受关注的金融数据接口库,为量化交易者、金融分析师和研究人员提供了便捷的数据获取通道。本指南将带你从环境…

Poppins字体完全指南:从入门到精通的现代几何字体应用

Poppins字体完全指南:从入门到精通的现代几何字体应用 【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 作为一名设计师或开发者,你是否曾经为寻找一款既现…

GLM-ASR-Nano-2512性能优化:降低功耗的配置技巧

GLM-ASR-Nano-2512性能优化:降低功耗的配置技巧 1. 引言 1.1 技术背景与业务挑战 随着边缘计算和本地化AI部署需求的增长,大模型在终端设备上的运行效率成为关键瓶颈。尽管GLM-ASR-Nano-2512凭借其15亿参数规模在语音识别准确率上超越Whisper V3&…

VideoDownloadHelper终极指南:轻松下载网页视频的完整教程

VideoDownloadHelper终极指南:轻松下载网页视频的完整教程 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网页视频…

提升OCR推理效率8倍|DeepSeek-OCR集成vLLM与CUDA 12.9最佳实践

提升OCR推理效率8倍|DeepSeek-OCR集成vLLM与CUDA 12.9最佳实践 1. 背景与挑战:传统OCR部署的性能瓶颈 在企业级文档自动化处理场景中,光学字符识别(OCR)系统正面临前所未有的高并发、低延迟需求。尽管DeepSeek-OCR作…

bert-base-chinese在舆情监测中的应用:实战案例详解

bert-base-chinese在舆情监测中的应用:实战案例详解 1. 引言:舆情监测的技术挑战与BERT的应对策略 随着社交媒体和网络平台的快速发展,企业、政府机构及公共组织面临着前所未有的舆论压力。如何从海量中文文本中快速识别情绪倾向、提取关键…