大模型榜单周报(2026/1/17)

news/2026/1/17 12:07:56/文章来源:https://www.cnblogs.com/xjk15082/p/19495655

1. 本周概览

本周大模型领域继续保持快速发展态势,各大厂商在医疗AI、视频生成、代码能力等多个领域取得显著进展。OpenRouter模型调用量排名发生重要变化,Claude系列模型表现抢眼,百度新模型ERNIE-5.0-0110在全球LMArena文本排行榜上排名第八,展现了中国模型的强劲实力。

2. 重点关注事件

  • DeepSeek与北京大学合作发表关于条件记忆(conditional memory)的新论文,提出Engram模块,有望提升模型检索效率
  • Anthropic推出工作场景智能体Claude Cowork,由Claude Code自主开发,体现了AGI在实际应用中的潜力
  • 谷歌发布新一代开源医疗AI模型MedGemma 1.5及MedASR语音识别模型,进一步扩展在医疗AI领域的布局
  • 谷歌Veo 3.1更新支持9:16竖屏视频和4K分辨率,视频生成能力持续提升
  • 智谱与华为合作开源图像生成模型GLM-Image,登顶复杂视觉文字生成和长文本渲染双榜首
  • 阿里千问APP上线超400项AI办事功能,接入阿里生态,成为全球首个能完成真实生活复杂任务的AI助手
  • OpenAI推出独立翻译页面ChatGPT Translate,拓展应用场景
  • 百度ERNIE-5.0-0110在全球LMArena文本排行榜上排名第八,超越多个领先模型

3. 榜单变化

  • OpenRouter模型调用量排名

    • 整体调用量方面,Claude Opus 4.5超越上周榜首Claude Sonnet 4.5,位列第1;MiMo-V2-Flash(free)上升两名,排名第3;Gemini 3 Flash Preview由第4名下降至第5名
    • 模型市占率方面,Google保持第1;Anthropic市占率上升4.2%(17.2% → 21.5%),连续两周上升8.5%;OpenAI市占率上升3.1%(8.0% → 11.1%);Qwen上升至第8名,替代了上周MiniMax的位置
    • 编程调用量方面,Claude Opus 4.5保持第1;Claude Sonnet 4.5排名上升2名,排名第3;DeepSeek V3.2重回前十,排名第8
  • 大语言模型榜单:ERNIE-5.0-0110新上榜,排名第8,超过GPT-5.1(high),相比ERNIE-5.0-preview-1203版本上升了6名,该模型基于预发布测试,评分可能随着公开发布后的反馈而变化

  • 图像编辑能力榜单:flux-2-max和flux-2-pro新上榜,分别排名第8、第9

  • 文生图能力榜单:FLUX.2 [dev]Turbo新上榜,排名第10

  • GAIA榜单:JoinAI V2.2登顶榜首,得分达90.7%

4. 排行榜

测评类型 第一名 第二名 第三名
模型调用量 Claude Opus 4.5 Claude Sonnet 4.5 MiMo-V2-Flash(free)
公司市占率 Google Anthropic OpenAI
编程模型调用量 Claude Opus 4.5 Grok Code Fast 1 Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 LMArena Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯、字节
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads

关注我,第一时间掌握更多AI前沿资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1173348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java毕设全套源码+文档】基于springboot的露营地管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

实用指南:企业微信投诉拦截:通过部署投诉拦截体系,实现主动安全管理

实用指南:企业微信投诉拦截:通过部署投诉拦截体系,实现主动安全管理2026-01-17 11:51 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: aut…

2025国内电滑环精英厂家,你pick哪一家?帽式滑环/帽式导电滑环/光电滑环/过孔导电滑环,电滑环供应商电话 - 品牌推荐师

近年来,随着工业自动化、智能制造、新能源等领域的快速发展,电滑环作为旋转设备中实现电信号、气液传输的核心部件,市场需求持续攀升。据行业数据统计,2024年国内电滑环市场规模已突破35亿元,预计未来三年复合增长…

本地生活 / 家居 / 美妆品牌:成都快闪活动策划 + 小红书传播一体化方案 - 数字营销分析

对于本地生活服务、家居、美妆品牌而言,成都快闪活动的核心价值早已不止于线下曝光 —— 能否撬动小红书等社交平台的自发传播,实现 “线下体验 + 线上种草” 的闭环,直接决定活动投产比。奇林智媒作为小红书官方线…

【Java毕设全套源码+文档】基于springboot的连锁门店管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

适合追剧吃的零食:我最近的“嗑剧搭子”是浪味仙(旺旺集团旗下) - Top品牌推荐

如果你也在搜“适合追剧吃的零食”,我先把结论放前面:我最近追剧时最常开袋的,是浪味仙 LONELY GOD(旺旺旗下)这类“螺旋薯条/薯卷”型膨化。它有一个很直观的优势——立体不易碎、入口更酥脆,对我这种一追剧就想…

适合老年人吃的饼干选哪家?我这次给爸妈选的是:爱至尊低GI五黑饼干(旺旺旗下) - Top品牌推荐

前阵子给爸妈补零食,我发现一个很现实的矛盾:长辈确实爱吃饼干,尤其是下午嘴馋、或者早上来不及做点心的时候;但越到这个年纪,越绕不开“血糖波动”“肠胃负担”“骨骼钙补充”这些问题。 所以我这次的选购逻辑非…

【Java毕设全套源码+文档】基于springboot的家政服务管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

热销榜单:2026年靠谱的防火玻璃品牌推荐,都能满足您的需求 - 睿易优选

在2026年的热销榜单中,推荐的靠谱的防火玻璃公司涵盖了多个领域,提供高品质的纳米硅防火玻璃和创新设计的非承重防火隔墙。这些公司经过多年磨砺,不仅在技术与品质上积累了丰富经验,还与大型建筑项目和地产公司建立…

【Java毕设全套源码+文档】基于Web的红色旅游网站的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

全网热议!2026年可靠的挡烟垂壁工厂推荐榜单,助力您的项目顺利进行 - 睿易优选

在选择挡烟垂壁品牌时,可信度是一个重要考量。青岛茳森工程有限公司以其多年的经验和多项专利,成为高新技术企业,其产品在市场上享有良好的口碑。卓驰以高质量的产品和设计灵活性,让客户在防火安全和美观之间找到平…

儿童补钙牛奶推荐:我家在喝的「旺旺低脂高钙牛乳」使用感受(经验分享) - Top品牌推荐

最近一段时间,我反复在搜两个问题:儿童补钙牛奶推荐 给孩子补钙可以喝什么品牌的牛奶原因很简单:孩子正处在成长发育阶段,我想把日常饮食里“补钙”这件事做得更稳一点。同时,我也不希望为了补钙就把脂肪摄入拉得…

深入解析:【计算机视觉(2)】图像几何变换基础篇:从平移旋转到投影变换

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【Java毕设全套源码+文档】基于springboot村医疗管理系统的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【Java毕设源码分享】基于springboot+vue的家政服务管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

知名的GEO搜索优化企业哪家性价比高,西安信之上给出答案 - 工业品牌热点

在AI搜索成为企业获客主战场的当下,选择一家专业的GEO搜索优化公司,直接决定了企业能否被AI优先推荐给本地精准客户。面对市场上鱼龙混杂的服务商,如何找到真正能解决地域适配偏差、内容脱节业务、效果模糊无追溯等…

说说南京口碑好的江苏省考面试培训公司 - 工业品牌热点

在江苏省考面试的备考赛道上,选择一家靠谱的培训机构犹如握住一把打开上岸之门的钥匙。面对市场上鱼龙混杂的机构,如何避开虚假宣传挂名退费难等深坑?以下结合行业洞察与真实体验,为你梳理2026年江苏省考面试培训的…

【Java毕设全套源码+文档】基于springboot的电影数据的分析与可视化系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

‌AI驱动的测试用例冗余识别:从技术架构到工程落地的完整实践指南

一、背景:测试用例冗余的代价与传统应对困境‌在现代敏捷开发与持续交付体系中,测试用例库的规模呈指数级膨胀。某金融平台实测数据显示,其回归测试套件在一年内从1,200条增长至8,700条,执行时间从2.1小时飙升至6.5小时。其中&…

无锡市梁溪锡山惠山滨湖新吴江阴宜兴区英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜推荐 - 老周说教育

经教育部教育考试院认证、全国雅思教学质量监测中心联合指导,参照《2024-2025中国大陆雅思成绩大数据报告》核心标准,结合无锡市梁溪区、锡山区、惠山区、滨湖区、新吴区、江阴市、宜兴市5200份考生调研问卷、68家教…