QWQ大模型评测榜单

在这里插入图片描述

评测榜单说明
在数学推理基准AIME24上,QwQ-32B达到了79.5分,几乎与DeepSeek-R1-617B的79.8分持平,远超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸馏模型。

在编程能力方面,QwQ-32B 在LiveCodeBench上获得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同样优于o1-mini的53.8分和蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,通义千问QwQ-32B的得分均略微超过了DeepSeek-R1-617B。

除了在性能上的提升,QwQ-32B的另一个亮点就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的显存,而现在,32B的QwQ,4张4090就能跑,这是将近15倍的差距,并且智能水平还差不多。

根据提供的搜索结果,以下是与用户提到的基准测试相关的信息汇总及分析:


1. AIME24

  • 用途:数学推理能力评测基准,主要测试模型在复杂数学问题中的逻辑推理能力。
  • 相关模型表现
    • 阿里开源的QwQ-32B模型在AIME24上获得79.5分,接近DeepSeek-R1-617B(79.8分),远超OpenAI o1-mini(63.6分)。
  • 特点:该基准注重模型对数学规律的解析能力,例如在找规律题目中,模型需通过提示进行迭代计算,但可能因过度思考导致错误。

2. LiveCodeBench

  • 用途:代码生成能力评测基准,评估模型生成可执行代码的准确性和效率。
  • 相关模型表现
    • QwQ-32B在LiveCodeBench上得分为63.4分,接近DeepSeek-R1-617B的65.9分,优于同尺寸的蒸馏模型。
  • 问题示例:生成解决“用5L和3L瓶子装4L水”的代码,QwQ-32B展示了生成多种解决方案的能力。

3. LiveBench

  • 用途:综合评测大模型能力的榜单,由Meta首席科学家杨立昆领衔设计,被列为“最难的LLMs评测榜”之一。
  • 相关模型表现
    • QwQ-32B在LiveBench中得分略微超过DeepSeek-R1-617B,显示其综合推理能力的优势。
  • 覆盖领域:可能包括数学、代码、逻辑推理等多维度任务。

4. IFEval(推测为FEva的可能对应)

  • 用途:指令遵循能力评测集,由谷歌等机构提出,测试模型对复杂指令的理解和执行能力。
  • 相关模型表现
    • QwQ-32B在IFEval中表现优异,得分超过DeepSeek-R1-617B,显示其较强的指令解析能力。

5. BFCL(Benchmark for Function Call and Tools)

  • 用途:评估模型准确调用函数或工具的能力,例如API接口或外部工具的使用。
  • 相关模型表现
    • QwQ-32B在BFCL测试中得分略高于DeepSeek-R1-671B,突显其在工具调用任务中的高效性。

时间范围 (24.08-25.02)

  • 解读:可能指基准测试的活跃使用时间段(2024年8月至2025年2月),但搜索结果中未明确提及具体时间范围。当前信息显示,阿里QwQ-32B的测试结果发布于2025年3月7日,表明这些基准在近期仍被广泛使用。

总结

上述基准测试覆盖了数学推理(AIME24)、代码生成(LiveCodeBench)、综合能力(LiveBench)、指令遵循(IFEval)及工具调用(BFCL)等多个维度,是当前评估大模型能力的重要工具。阿里QwQ-32B模型在这些测试中表现突出,尤其在降低部署成本的同时保持高性能,成为开源社区的热门选择。
如需进一步了解各基准的详细评测方法或历史数据,可参考相关论文或模型开源页面(如魔搭社区、Hugging Face等)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/72697.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bash: uwsgi: 未找到命令

针对你提出的“bash: uwsgi: command not found”问题,以下是一些可能的解决方案,请按照步骤逐一排查: ‌1、检查uwsgi命令是否正确‌: 确保你输入的命令是uwsgi,而不是uWSGI或其他变体。 ‌2、确认uwsgi是否已安装‌&…

超图(Hypergraph)

超图(Hypergraph)是图结构学习(Graph Learning)中的一种扩展形式,它比传统图(Graph)更具表达能力,适用于建模复杂的多元关系。 超图是一种由 超节点(Hypernodes&#xff…

PyTorch中的线性变换:nn.Parameter VS nn.Linear

self.weight nn.Parameter(torch.randn(in_channels, out_channels)) 和 self.linear nn.Linear(in_channels, out_channels) 并不完全一致,尽管它们都可以用于实现线性变换(即全连接层),但它们的使用方式和内部实现有所不同。 …

鸿蒙生态日日新,夸克、顺丰速运、驾校一点通等多款应用功能更新

3月5日鸿蒙生态日日新PLOG:吉事办、健康甘肃等政务服务App上架原生鸿蒙应用市场;夸克、顺丰速运、驾校一点通等多款应用功能更新。

基于SpringBoot的智慧停车场小程序(源码+论文+部署教程)

运行环境 • 前端:小程序 Vue • 后端:Java • IDE工具:IDEA(可自行选择) HBuilderX 微信开发者工具 • 技术栈:小程序 SpringBoot Vue MySQL 主要功能 智慧停车场微信小程序主要包含小程序端和…

致同报告:香港财政赤字加剧,扩大税基与增收迫在眉睫

2月26日香港政府2025-26年度财政预算案,(以下简称“预算案”)发布,香港财政司司长陈茂波提出一系列旨在减少开支并振兴香港经济的措施,以应对日益增长的财政赤字。主要提案包括对所有公务员实施冻薪、针对性税务宽减措…

在Spring Boot项目中分层架构

常见的分层架构包括以下几层: 1. Domain 层(领域层) 作用:领域层是业务逻辑的核心,包含与业务相关的实体类、枚举、值对象等。它是对业务领域的抽象,通常与数据库表结构直接映射。 主要组件: 实体类(Entity):与数据库表对应的Java类,通常使用JPA或MyBatis等ORM框架…

实训任务2.2 使用Wireshark捕获数据包并分析

目录 【实训目标】 【实训环境】 【实训内容】 【实训步骤】 1.启动WireShark 2. 使用Wireshark捕获数据包 (1)选择网络接口 (2)捕获数据包 (1)设置Wireshark过滤器并捕获数据包 (2&…

工业自动化核心:BM100 信号隔离器的强大力量

安科瑞 吕梦怡 18706162527 BM100系列信号隔离器可以对电流、电压等电量参数或温度、电阻等非电量参数进行快速精确测量,经隔 离转换成标准的模拟信号输出。既可以直接与指针表、数显表相接,也可以与自控仪表(如PLC)、各种 A/D …

并发编程——累加器

目录 1 AtomicLong 1.1 核心功能 1.2 实现原理: (1)基于 Unsafe 的底层操作 (2) volatile字段的内存可见性 (3)CAS 操作与 ABA 问题 1.3 性能分析 1.4 使用场景 2 LongAdder 核心设计原理 1 分段存储 2 分散更新策略 3.处理高竞…

大模型管理工具:LLaMA-Factory

目录 一、安装与环境配置 二、​启动 Web 界面 三、数据准备 四、模型训练 五、模型评估 七、模型导出 八、API服务部署 LLaMA-Factory 是一个开源的大语言模型(LLM)微调框架,旨在简化大规模模型的训练、微调和部署流程。它支持多种主…

推流项目的ffmpeg配置和流程重点总结一下

ffmpeg的初始化配置,在合成工作都是根据这个ffmpeg的配置来做的,是和成ts流还是flv,是推动远端还是保存到本地, FFmpeg 的核心数据结构,负责协调编码、封装和写入操作。它相当于推流的“总指挥”。 先来看一下ffmpeg的…

大语言模型从理论到实践(第二版)-学习笔记(绪论)

大语言模型的基本概念 1.理解语言是人工智能算法获取知识的前提 2.语言模型的目标就是对自然语言的概率分布建模 3.词汇表 V 上的语言模型,由函数 P(w1w2 wm) 表示,可以形式化地构建为词序列 w1w2 wm 的概率分布,表示词序列 w1w2 wm…

strace工具的交叉编译

1、下载源码 git clone https://github.com/strace/strace.git cd strace 2、运行 bootstrap 脚本(如果需要) 如果源码中没有 configure 脚本,运行以下命令生成: ./bootstrap 3. 配置编译参数 运行 configure 脚本&#xff…

Vue 3 组件库持续集成 (CI) 实战:GitHub Actions 自动化测试与 Storybook 文档构建 - 构建高效可靠的组件库 CI 流程

引言 欢迎再次回到 Vue 3 + 现代前端工程化 系列技术博客! 在昨天的第十篇博客中,我们深入学习了代码覆盖率分析,掌握了利用 Jest 代码覆盖率报告提升单元测试有效性的方法,进一步巩固了组件库的质量防线。 今天,我们将迈向 自动化流程 的构建,聚焦于 持续集成 (Continu…

无穿戴动捕数字人互动方案 | 畅享零束缚、高沉浸的虚实交互体验

在数字化浪潮席卷而来的当下,虚拟人互动体验正逐渐成为各领域的新宠。长久以来,虚拟人驱动主要依靠穿戴式动作捕捉设备,用户需要通过佩戴传感器或标记点来实现动作捕捉。然而,随着技术的不断突破,一种全新的无穿戴动作…

03 HarmonyOS Next仪表盘案例详解(二):进阶篇

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! 文章目录 前言1. 响应式设计1.1 屏幕适配1.2 弹性布局 2. 数据展示与交互2.1 数据卡片渲染2.2 图表区域 3. 事件处理机制3.1 点击事件处理3.2 手势…

python-leetcode-统计构造好字符串的方案数

2466. 统计构造好字符串的方案数 - 力扣(LeetCode) 这个问题可以用**动态规划(DP)**来解决,思路如下: 思路 1. 定义 DP 数组 设 dp[i] 表示长度为 i 的好字符串的个数。 2. 状态转移方程 我们可以在 dp…

MySQL------存储引擎和用户和授权

9.存储引擎 1.两种引擎 MyISAM和InnoDB 2.两种区别 1.事务: MyISAM不支持事务 2.存储文件: innodb : frm、ibd MyISAM: frm、MYD、MYI 3.数据行锁定: MyISAM不支持 4.全文索引: INNODB不支持,所以MYISAM做select操作速度很快 5.外键约束: MyISAM…

题海拾贝:P9241 [蓝桥杯 2023 省 B] 飞机降落

Hello大家好&#xff01;很高兴我们又见面啦&#xff01;给生活添点passion&#xff0c;开始今天的编程之路&#xff01; 我的博客&#xff1a;<但凡. 我的专栏&#xff1a;《编程之路》、《数据结构与算法之美》、《题海拾贝》 欢迎点赞&#xff0c;关注&#xff01; 1、题…