当AI自我纠错：一个简单的“Wait“提示如何让模型思考更深、推理更强

原论文：s1: Simple test-time scaling
作者：Niklas Muennighoff, Zitong Yang, Weijia Shi等（斯坦福大学、华盛顿大学、Allen AI研究所、Contextual AI）
论文链接：arXiv:2501.19393
代码仓库：GitHub - simplescaling/s1

1. 研究背景与问题

近年来，大语言模型的性能提升主要依赖于扩大预训练计算规模。而最近OpenAI的o1模型展示了一种新的范式——测试时间扩展（Test-time Scaling），即通过增加测试阶段的计算量来提升模型性能。然而，OpenAI并未公开其方法，这导致了许多复制尝试。

核心问题：如何以最简单的方法实现测试时间扩展并获得强大的推理性能？

2. 核心思路与方法

论文提出了两个关键创新：

2.1 高效数据策划（s1K数据集）

作者精心策划了一个仅包含1,000个问题的高效训练数据集，基于三个核心原则：

质量：确保数据集中的问题和解答格式优良
难度：选择足够具有挑战性的问题，需要复杂推理
多样性：涵盖不同领域的问题（数学、物理、生物等）

数据筛选流程：

从16个来源收集初始的59,029个问题
使用API质量过滤和格式检查，减少到51,581个样本
使用模型性能（Qwen2.5-7B和32B均无法解决）作为难度指标
在50个不同领域中均衡采样，确保多样性

2.2 预算强制（Budget Forcing）技术

这是论文的核心创新，一种简单但高效的测试时间控制方法：

两种操作模式：

最大限制强制：当模型生成的思考标记超过预设上限时，强制附加思考结束标记分隔符，迫使模型提供当前最佳答案
最小限制强制：当模型试图过早结束思考时，抑制结束标记生成，并插入"Wait"提示词，鼓励模型继续思考和自我纠正

预算强制不需要额外训练，纯粹是解码时的干预技术，实现简单但效果显著。

3. 实验设计

3.1 模型训练

基础模型：Qwen2.5-32B-Instruct
训练数据：s1K数据集（1,000个推理样本）
训练效率：16个H100 GPU，仅需26分钟
训练参数：5个epoch，batch size=16，学习率1e-5，余弦学习率衰减

3.2 评估基准

选择了三个广泛使用的推理密集型基准：

AIME24：2024年美国邀请数学考试，30个高难度数学问题
MATH500：500个竞赛级数学问题
GPQA Diamond：198个博士级科学问题（生物、化学、物理）

3.3 测试时间扩展方法对比

研究比较了多种测试时间扩展方法：

预算强制（提出的方法）
标记条件控制：在提示中指定思考标记上限
步骤条件控制：在提示中指定思考步骤上限
类别条件控制：使用泛化提示（短/长思考）
拒绝采样：采样直至生成符合预定长度的回答

评估指标包括：

控制性（Control）：方法能够精确控制测试时间计算的程度
扩展性（Scaling）：性能随计算增加的提升斜率
性能（Performance）：方法能达到的最高准确率

4. 实验结果

4.1 测试时间扩展效果

s1-32B模型在三个基准上都展现了明显的测试时间扩展能力：

MATH500：随思考时间从512增至2048标记，准确率从约75%增至93%
AIME24：随思考时间从512增至8192标记，准确率从约20%增至近60%
GPQA Diamond：随思考时间从1024增至4096标记，准确率从约40%增至60%

4.2 不同测试时间扩展方法比较

方法	控制性(%)	扩展斜率	性能(AIME24)	评估次数
预算强制	100%	15	56.7%	5
标记条件控制	40%	-24	40.0%	5
标记条件+预算强制	100%	13	40.0%	5
步骤条件控制	60%	3	36.7%	5
步骤条件+预算强制	100%	6	36.7%	5
类别条件控制	50%	25	36.7%	2
拒绝采样	100%	-35	40.0%	5

预算强制展示了最佳的综合表现：

完美的控制性（100%）
良好的扩展斜率（15）
最高的性能（56.7%）

4.3 与现有模型对比

模型	样本数量	AIME 2024	MATH 500	GPQA Diamond
API 模型
o1-preview	N.A.	44.6%	85.5%	73.3%
o1-mini	N.A.	70.0%	90.0%	60.0%
o1	N.A.	74.4%	94.8%	77.3%
Gemini 2.0 Flash	N.A.	60.0%	N.A.	N.A.
开源权重模型
Qwen2.5-32B-Instruct	N.A.	26.7%	84.0%	49.0%
QwQ-32B	N.A.	50.0%	90.6%	54.5%
r1	>800K	79.8%	97.3%	71.5%
r1-distill	800K	72.6%	94.3%	62.1%
开源权重和数据
Sky-T1	17K	43.3%	82.4%	56.8%
Bespoke-32B	17K	63.3%	93.0%	58.1%
s1-32B（本文）	1K	56.7%	93.0%	59.6%

s1-32B是最具样本效率的开源推理模型，性能超过o1-preview，并且数据集大小比其他模型少1-800倍。

4.4 数据策划方法的重要性

数据集	AIME 2024	MATH 500	GPQA Diamond
1K-random（仅质量）	36.7%	90.6%	52.0%
1K-diverse（仅多样性）	26.7%	91.2%	54.6%
1K-longest（仅难度）	33.3%	90.4%	59.6%
59K-full（全量数据）	53.3%	92.8%	58.1%
s1K（质量+难度+多样性）	50.0%	93.0%	57.6%