大模型榜单周报(2026/01/24)

news/2026/1/25 13:07:27/文章来源:https://www.cnblogs.com/xjk15082/p/19529331

1. 本周概览

本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。

2. 重点关注事件

  • 美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601,该模型拥有5600亿参数,基于创新的MoE架构构建,引入了重思考模式(Heavy Thinking Mode),能够同时启动8路思考并最终总结出更全面、更可靠的结论
  • 智谱于1.20开源30B混合思考模型GLM-4.7-Flash,激活3B参数,提供免费API,性能超越同量级模型,为轻量化部署提供新选择
  • MiniMax于1.20发布Agent 2.0(AI-native Workspace),实现本地云端一体,推出Expert Agents垂直专家系统,具备读文件、写脚本、制作PPT、跑定时任务等功能,定义AI原生工作台概念
  • DeepSeek新模型MODEL1于1.21曝光,代码显示采用全新架构,具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处创新
  • Anthropic于1.22开源全新「AI宪法」(Claude's Constitution),确立了当不同价值观发生冲突时的权衡顺序:「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
  • 谷歌DeepMind于1.22发布D4RT(Dynamic 4D Reconstruction and Tracking),用于跨时空4D场景重建和跟踪,采用统一的编码器-解码器Transformer架构,在各类4D重建任务中均优于此前方法

3. 榜单变化

  • OpenRouter整体模型调用量方面,Claude Opus 4.5调用量大幅下滑35%至395B tokens,排名从第一暴跌至第六;Claude Sonnet 4.5升至榜首但增幅仅11%;免费模型MiMo-V2-Flash持续走强,占比增长18%至582B tokens,排名从第三升至第二;Gemini 2.5 Pro异军突起,调用量暴增300%至413B tokens,首次进入前十即位列第五;Grok 4.1 Fast增长13%至282B tokens;Gemini 2.5 Flash Lite调用量陷入停滞,零增长导致排名从第八跌至第十
  • OpenRouter模型市占率方面,Google模型份额跃升至26.0%,增幅达2.8个百分点,持续扩大领先优势;Anthropic份额大幅下滑4.7个百分点至16.7%,虽仍位居第二但与榜首差距明显拉大;OpenAI份额小幅回升0.6个百分点至13.1%;x-ai份额上升1.3个百分点至12.6%,但因增速不及OpenAI导致排名从第3降至第4;Mistral AI份额下降0.3个百分点至3.5%,被Qwen以0.9个百分点的增幅反超,双方排名发生易位
  • OpenRouter编程调用量方面,Claude Opus 4.5占比断崖式下跌,从20.6%骤降至10.6%,降幅达10个百分点,是两周内变化幅度最大的模型,排名从第2位跌至第3位;Grok Code Fast 1持续扩大领先优势,占比从21.6%小幅攀升至22.8%,增幅1.2个百分点,稳居市场第一;免费模型MiMo-V2-Flash异军突起,占比从2.8%飙升至5.5%,增幅2.7个百分点,排名从第8位跃升至第5位;Claude Sonnet 4.5占比显著增加,从7.7%升至14.1%,增幅6.4个百分点,排名从第4位升至第2位
  • 编程能力榜单(Code Arena):gemini-3-flash (thinking-minimal) 上榜,排名第8,超过GPT-5.2
  • 图像编辑能力榜单(Text to Image Arena):flux-2-flex分数追平nano-banana,二者排名易位
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview上榜,排名第10
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%

4. 排行榜

测评类型 第一名 第二名 第三名
模型调用量 Claude Sonnet 4.5 MiMo-V2-Flash(free) Grok Code Fast 1
公司市占率 Google Anthropic OpenAI
编程模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Claude Opus 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code Arena Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我,第一时间掌握更多AI前沿资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1214492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年市面上新型方形逆流冷却塔制造厂家哪里有卖,方形逆流冷却塔/工业冷却塔/冷却水塔生产商哪家权威

随着工业4.0与绿色能源转型的加速,方形逆流冷却塔作为工业循环水系统的核心设备,其技术迭代与市场格局正经历深刻变革。据行业白皮书统计,2025年全球方形逆流冷却塔市场规模突破120亿元,年复合增长率达8.7%,其中中…

2026降AI工具红黑榜:6款热门工具实测踩坑指南

花两周时间测了十几款降AI工具,踩了不少坑。红榜推荐嘎嘎降AI(达标率99.26%)、比话降AI(不达标退款)、AIGCleaner(英文论文专用)。黑榜预警:免费工具多是智商税、只认自家检测的别信、改完乱七八糟读不通的别用…

【Git Git Clone 完整流程详解】 - 指南

【Git Git Clone 完整流程详解】 - 指南2026-01-25 13:03 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block …

2026年徐州包车公司报价深度解析与优质服务商盘点

引言 随着企业活动多样化、团队建设常态化以及商务出行高端化,徐州地区的团体出行需求正迎来新一轮增长。无论是大型企业的员工通勤、年度旅游,还是政府部门的考察接待、会展活动的嘉宾接送,对专业化、定制化包车服…

2026毕业季必备:6款降AI工具实测,帮你把AI率压到10%以下

毕业论文被检测出AI率90%+?别慌。本文实测了6款降AI工具,从4.8元到8元不等,最便宜的只要3.2元/千字。重点推荐嘎嘎降AI(全平台通用)和比话降AI(知网专精),实测都能把AI率从90%降到10%以下。2026毕业季必备:6款…

手把手教你用角色设定法降AI(附10个提示词模板)

角色设定法是最有效的降AI技巧之一,核心是让AI扮演特定身份来改变输出风格。角色越具体效果越好,比如「熬夜赶论文的研究生」比「学生」效果好得多。本文提供10个实测有效的角色设定模板。手把手教你用角色设定法降A…

AI率高背后的3个真相:为什么你写的也会被误判?

很多同学明明是自己写的论文,AI率却高达60%、70%。三个真相:学术写作风格本身就像AI(规范精准)、检测系统存在误判率、过于追求完美反而可疑。解决方法:加入个人化表达、打破工整结构、用专业工具调整。AI率高背后…

前端如何定位组件变化及性能问题

一、前端性能问题本质是什么?(先立认知) 性能问题 ≈ 不必要的渲染 不必要的计算 不必要的资源消耗 核心目标只有两个: ❌ 找出 谁在频繁变化 ❌ 找出 为什么它在变化 二、如何定位「组件为什么会变化 / 重渲染」⭐⭐ 1️⃣ …

文件上传作业

一 [SWPUCTF 2021 新生赛]easyupload3.0先尝试上传一个php文件显示于是尝试.htaccess绕过,接入蚁剑后在app/flag.php中找到flag二 [HNCTF 2022 Week1]easy_upload 直接上传php文件显示成功连接蚁剑得到flag NSSCTF{…

2026年沈阳有名的国考税务面试培训公司,红旗公考值得关注

2026年公职考试竞争持续白热化,国考税务岗位因稳定的职业前景与优厚的待遇,成为众多考生的热门选择,而专业化的面试辅导已成为考生突破重围、成功上岸的核心支撑。无论是贴合国考税务面试评分标准的针对性训练、还原…

2026年股权激励计划制定比较靠谱的公司,创锟咨询值得关注

在企业管理升级的浪潮中,一套科学的股权激励方案是企业绑定核心人才、驱动战略落地的黄金纽带,关乎组织活力与长远发展。面对市场上良莠不齐的股权激励咨询机构,如何避开模板化割韭菜重协议轻落地的坑?以下依据不同…

2026年江西专业的安全阀在线检测仪制造厂,哪家技术强Top10

在特种设备检测领域,安全阀在线检测仪是保障设备安全运行的核心工具,其技术专业性与稳定性直接关系到企业生产安全与合规运营。面对市场上参差不齐的安全阀在线检测仪厂商,企业往往难以抉择——哪家技术实力强劲?哪…

2026年武汉东篱老屋排名,特色田园体验好去处揭秘

在快节奏的都市生活中,企业团建、家庭聚会或商务会议往往面临场地受限、项目单一、流程繁琐等难题,而一处能兼顾自然体验与多元服务的休闲目的地,成了许多人的迫切需求。武汉市梁湖畔东篱老屋农业生态有限公司(以下…

2026必备10个降AIGC工具,研究生速看!

2026必备10个降AIGC工具,研究生速看! AI降重工具:学术写作的隐形助手 随着人工智能技术在学术领域的广泛应用,论文中出现的AIGC痕迹越来越引起高校和期刊的重视。对于研究生而言,如何在保持原文语义不变的前提下&#…

面试官:短信接口被刷,一夜损失5万!如果是你,怎么防?

前两天,粉丝群里的阿强(老倒霉蛋了)半夜给我发私信,说他们公司刚上线的一个 H5 活动页,半夜被 SMS Boom(短信轰炸机) 盯上了。 早上老板醒来一看阿里云账单,好家伙,一晚上…

生产环境 CPU 飙升 100%!别再去翻日志了,这 3 行命令教你 1 分钟定位代码行号

01 报警突袭 下午 4 点,正是摸鱼的好时候,运维突然甩过来一张截图:“生产环境 03 号机器 CPU 飙升 100%,请求全堵了,快看一眼!” 我转头一看,旁边的实习生小弟已经慌了,正在疯狂敲…

小红书MySQL内核秒杀能力重磅再升级

“秒杀”是电商平台最典型的高并发促销场景,双十一等大促活动也常以秒杀能力作为数据库技术实力的标志。随着小红书电商业务快速增长,直播带货等爆品场景对极致下单速度的需求更加突出,希望将下单吞吐提升至 1W/s。 基于 MySQL 内核实现的合并…

概率论与数理统计期末考试专项突破:古典概型与组合概率的精讲与实战应用

概率论与数理统计期末考试专项突破:古典概型与组合概率的精讲与实战应用相关重点知识点总体预览 在概率论与数理统计的期末考试中,古典概型是基础中的基础,几乎每一份考卷都会涉及。本篇文章聚焦于“古典概型”中的组合概率计算,通…

高可用架构三板斧:冗余、隔离、降级

高可用冗余 冗余,是高可用架构的第一道防线。 其本质:是在关键组件或路径上建立多份备份,消除单点故障。 冗余实现的层面多样,包括但不限于硬件冗余(双电源、RAID、双机热备)。 以及,网络冗余…

上海探讨注意力涣散的治疗方法和注意力不集中的原因哪家好

2026年青少年成长健康需求持续升级,注意力提升已成为家长与教育机构关注的核心议题。无论是注意力分散的运动疗法实践、注意力涣散的治疗方法创新,还是注意力不集中的原因科学解析,专业机构的服务能力直接决定孩子成…