现在无论是数码产品手机、电脑、CPU、GPU等或是大模型跑分是一个永恒不变的流程,虽然现在不少厂商针对跑分进行了专门的“优化”,但跑分目前还是相对客观评价一个硬件产品或是软件产品的手段。
不服? 来跑个分。
跑分的专业术语是评测、评估。大模型评估对通用大模型很重要,对垂直模型一样很重要,一个垂直模型在其垂直领域内的能力要比通用模型好才有其存在的意义。如一个7B微调的法律模型如其在法律领域能力还比不上7B的通用模型就没有存在的意义。
评估微调模型的能力同样需要进行跑分从一个相对客观的角度评估模型是否达到预先设定的目标。
文章下面先简单介绍大模型评估的一些背景知识,后通过评估Qwen3-0.6B、1.7B、4B、8B以及LawLLM-7B,五个模型中三个为通用模型,一个为基于Qwen2.5-7B经过微调的垂直领域模型。看看不同规模比较新的通用模型能否战胜一个比较老的垂直法律模型。
大模型评估
在大模型领域也比较流行跑分,每次各家厂商发布新模型同时也会公布其在某某榜单的分数,在N个领域基准评估排名是多少。
目前行业公认基准评估评测集如下:
MMLU Pro 通用知识推理 多学科专业级理解(数学、物理、历史等) MMLU升级版,题目更复杂,选项从4个增至10个
GPQA Diamond 高级科学推理 物理/化学/生物等研究生级问题 "Google-proof"设计,防止搜索直接得答案,极难
SWE-bench Verified 软件工程 解决真实GitHub代码问题 人工验证版本,评估工程实践能力而非简单代码补全
MATH-500 数学推理 500道高难度数学竞赛题 需复杂推导和计算,测试数学思维
AIME 2024 数学竞赛 美国数学邀请赛真题 顶级高中数学竞赛,难度极高
LiveCodeBench 代码生成 动态更新的算法题与编程任务 防数据污染,测试实时编程与算法解决能力
这六个领域是每个头部大模型厂商新模型必跑的分。还有一些其他数据集如MT-Bench、P2L等。还有针对Agent的评估如:AgentBench。
模型竞技场
比较出名的平台有:LMArena、CompassArena等
相对于学术领域基准评测比较容易被针对性“优化”,还有一个业内比较权威的模型评测榜单LMArena。模型竞技场排名与针对领域基准数据集的跑分模式完全不一样,基准数据集是公开的如果模型在训练阶段加入了部分数据就可能会影响到他的跑分结果。
LMArena这类模型竞技场核心是依靠用于进行打分,用于规模越大活跃度越高其越权威。也是局限性就是收到用户群体偏好的影响。
LMArena评测机制:
1、双盲对战: 用户提问,平台随机展示两个匿名模型的回答,用户投票选择更优答案,投票结束后才揭示模型身份
2、Bradley-Terry统计模型: 将投票率转换为实力得分,控制样本量和匹配次数的偏差
3、动态更新: 根据用户投票持续更新

法律领域
目前针对法律领域的模型评估数据集MMLU/MMLU Pro虽然有覆盖法律学科,但这跟国内的法律还不一样。CMMLU、C-Eval 倒是覆盖了国内法律领域知识,但这类综合性的评估数据集覆盖了几十个学科法律只是其小部分数据集,对法律垂直领域内的知识覆盖面不够。目前国内法律领域的专门评测数据集有:LawBench、LAiW,下面将使用LawBench数据集用于模型的评估。
LawBench数据集包括20种不同任务,覆盖三个认知水平:
1、法律知识记忆: 包括法律概念、术语、法条和事实。
2、法律知识理解: 法律文本中的实体、事件和关系,从而理解法律文本的意义和内涵。
3、法律知识应用: 能否正确利用其法律知识、对其进行推理从而解决下游应用中的现实法律任务。
LawBench每类任务包括500个问题,试题类型包括:生成、单选、多选、抽取、回归。五种不同类型的问题。数据集总规模为1W。提供了Zero-Shot(零样本)、One-Shot(单样本)两种类型的数据集。
评估的分数计算通常有两种模式。基于规则的评估(Rule-based):使用确定性规则或脚本自动判断模型输出是否正确。基于LLM Judge的评估(LLM-as-Judge):使用另一个大语言模型作为"裁判"来评估答案质量。
下面分别使用Qwen3-0.6B、1.7B、4B、8B以及LawLLM-7B评估本数据集,本次使用的是基于规则的评估。LawLLM-7B为基于Qwen2.5微调的法律垂直领域模型。
参数统一为top_k=20,temperature=0.6,top_p=0.95,do_sample=True
| 认知 | 任务 |
|---|---|
| 法律知识记忆 | 法条背诵、知识问答 |
| 法律知识理解 | 文件校对、纠纷焦点识别、婚姻纠纷鉴定、问题主题识别、阅读理解 |
| 命名实体识别、舆情摘要、论点挖掘、事件检测、触发词提取 | |
| 法律知识应用 | 法条预测(基于事实)、法条预测(基于场景)、罪名预测、刑期预测(无法条内容) |
| 刑期预测(给定法条内容)、案例分析、犯罪金额计算、咨询 |

评测结果分析
本数据集在19项任务中,13项任务(68%)非思考模式表现更优 ,思考模式仅在6项任务(32%)中效果更好。
思考模式增益公式:Δ = 8B得分 - 8B-no_think得分
思考模式真正有效的任务(Δ > 2)
| 任务 | Δ值 | 任务类型 | 成功原因 |
|---|---|---|---|
| 刑事损害赔偿计算 | +25.2 | 数值推理 | 复杂多步计算需逻辑链支撑 |
| 触发词提取 | +12.7 | 事件理解 | 深度语义理解提升事件边界识别 |
| 基于事实的法条预测 | +4.5 | 知识推理 | 事实-法条映射需中间推理步骤 |
| 事件检测 | +4.4 | 内容理解 | 全局上下文分析减少误检 |
非思考模式碾压性优势的任务(Δ < -5)
| 任务 | Δ值 | 任务类型 | 失败原因 |
|---|---|---|---|
| 案例分析 | -16.4 | 生成任务 | 过度思考导致生成内容冗余发散 |
| 论点挖掘 | -16.0 | 信息抽取 | 深度思考引入噪声而非精准定位 |
| 命名实体识别 | -14.9 | 抽取任务 | 思考模式破坏实体边界快速匹配 |
| 知识问答 | -14.4 | 信息检索 | 过度推理偏离直接答案 |
| 争议焦点识别 | -9.6 | 精确判断 | 思考引发发散,损害判断锐度 |
| 刑期预测(有法条) | -7.5 | 数值计算 | 思考增加复杂度,数值计算需"直给" |
| 刑期预测(无法条) | -5.7 | 数值计算 | 同上 |
规模效应真实表现
强正规模效应任务(0.6B→8B提升>50%)
- 基于事实的法条预测:+383%(16.24→78.46)——事实-法律映射能力随参数量爆炸式增长
- 罪名预测:+95%(28.00→54.50)——罪名认定依赖复杂特征学习
- 知识问答:+75%(29.00→50.80)——知识密度与参数规模强相关
- 刑事损害赔偿计算:+53%(61.40→94.00)——数学能力与规模正相关
规模效应饱和任务(4B→8B提升<5%)
- 事件检测:+0.1%(73.36→73.29)——4B已达能力上限
- 阅读理解:+5.5%(71.71→75.65)——边际效益递减
- 基于场景的法条预测:+0.4%(30.82→30.93)——全系列得分停滞,可能是评估分数计算存在缺陷
异常规下降任务
- 刑期预测(有法条):0.6B→8B持续下降(80.85→78.96),可能是模型复杂化后"过度解读"法条,还可能是评估分数计算存在缺陷
与专业模型(LawLLM-7B)对比
Qwen3-8B反超标杆的任务
- 刑事损害赔偿计算:94.0 vs 57.2(+64%)——通用模型的数学优势
- 争议焦点识别:8B-no_think 43.4 vs 27.2(+60%)——非思考模式+规模效应碾压
- 命名实体识别:8B-no_think 85.2 vs 63.1(+35%)——通用架构的抽取能力被低估
- 刑期预测:no_think模式全面领先(86.6/86.5 vs 80.5/79.8)
LawLLM-7B护城河任务
- 案例分析:74.8 vs 37.8(+98%)——法律推理专业化不可替代
- 知识问答:79.0 vs 50.8(+56%)——法律知识密度差距
- 事件检测:89.8 vs 73.3(+23%)——专业领域特征工程优势
- 法条背诵:26.2 vs 19.3(+36%)——专业训练集的记忆优势
现象
现象1:思考模式的"双刃剑"本质
- 适合:触发词提取(+12.7)需深度理解;刑事赔偿计算(+25.2)需多步推理
- 不适合:命名实体识别(-14.9)需快速匹配;案例分析(-16.4)需精准生成
现象2:规模与模式的互斥性
- 小模型(0.6B):思考模式无害(无法深度思考)
- 大模型(8B):思考模式分化——推理任务增益 vs 抽取任务受损
现象3:专业模型的"偏科"现象
- LawLLM-7B在案例分析、知识问答领先
- 但在刑事赔偿计算(57.2 vs 94.0)和触发词提取(16.85 vs 58.78)严重弱于通用模型
场景-模型配置决策树
任务是否需要思考模式?
├─ 是 → 启用思考模式
│ ├─ 数值计算 → 8B-think(刑事赔偿)
│ └─ 法条映射 → 8B-think(基于事实的法条预测)
└─ 否 → 禁用思考模式├─ 信息抽取 → 8B-no_think(NER、论点挖掘)├─ 精确判断 → 8B-no_think(争议焦点、刑期预测)└─ 内容生成 → 8B-no_think(案例分析、咨询)
专业模型 vs 通用模型取舍
- 优先LawLLM-7B:法律文书生成、深度法律咨询、知识密集型问答
- 优先Qwen3-8B-no_think:实体抽取、数值计算、快速焦点判断
总结
专业模型有一定的护城河,在专业领域还保存着优势,但基座模型的更新就可能让专业模型丧失一半优势,微调也是需要持续更新迭代的。
模型评估也是一个复杂的工程,也可能新模型又在评测数据集上训练了一遍做了“优化”,可能要更加客观评估大模型还是需要专门定制的评估数据集。
文章首发地址:https://mp.weixin.qq.com/s/JneX42jCgsZ4Is_eibkz-g