"说两遍"这个在人类沟通中略显烦人的习惯,对AI居然有奇效。
最近Google Research发布了一篇很有意思的论文,标题简单到让人怀疑是不是写错了:“Prompt Repetition Improves Non-Reasoning LLMs”(重复Prompt提升非推理LLM性能)。
研究人员在Gemini、GPT-4o、Claude、DeepSeek等主流模型上做了大量测试,得出了一个让人哭笑不得的结论:把同一句话说两遍,模型准确率最高能提升76%,而且还不增加延迟。
这到底是怎么回事?
一个"反常识"的发现
事情要从Transformer架构的一个根本特性说起。
当前几乎所有的大语言模型都是"因果语言模型"(Causal Language Model)。这意味着它们处理文本的方式是严格从左到右的——当模型正在处理你句子中的第5个词时,它能看到第1-4个词,但完全不知道第6个词以后的内容,因为它还没"读"到那里。
这个限制导致了一个很微妙的问题:信息的顺序至关重要。
举个例子,如果你输入<上下文><问题>和<问题><上下文>,模型可能会给出完全不同的答案。因为在后一种情况下,模型先读到问题,却还不知道这个问题应该关联什么上下文。
Google Research的研究人员想到一个办法:把整个输入复制一遍。
原来你是这样问的:
请根据以下内容回答问题:<你的内容>
问题:<你的问题>
现在变成这样:
请根据以下内容回答问题:<你的内容>
问题:<你的问题>
请根据以下内容回答问题:<你的内容>
问题:<你的问题>
就这么简单。
数据说话:47胜0负
研究人员设计了7个基准测试,包括ARC、OpenBookQA、GSM8K、MMLU-Pro等,测试了7个模型:Gemini 2.0 Flash Lite、GPT-4o-mini、Claude 3.7 Sonnet、DeepSeek V3等等。
结果:在70场对比中,重复Prompt赢了47场,平了23场,输了0场。
图1:在要求模型不使用推理时,主流LLM在各类基准测试上,重复Prompt与基线的准确率对比。星号表示根据McNemar检验具有统计学意义的胜利(p值<0.1)。重复Prompt在70次测试中赢了47场,0负。
最夸张的是一个叫"NameIndex"的测试。模型被要求从50个名字的列表中找出第25个名字:
单次Prompt准确率:21.33%
重复Prompt准确率:97.33%
提升了76个百分点。
为什么会有这么大的差异?因为在单次处理时,模型读到第25个名字时可能早就忘了前面数到哪了。但在第二次处理时,模型已经"记住"了整个列表,自然能准确找到目标。
零成本:免费的午餐
你可能会问:复制一遍输入不会增加成本和延迟吗?
答案是:几乎不会。
LLM的处理分为两个阶段:
预填充(Prefill):处理输入prompt。这个阶段GPU可以高度并行处理,速度很快。
生成(Decoding):逐个token生成答案。这个阶段是串行的,比较慢。
重复Prompt只增加了预填充阶段的工作量,而现代GPU处理预填充的效率极高。研究人员发现,重复Prompt没有增加生成的token数量,也没有增加首token响应时间。
唯一的例外是Anthropic的模型(Claude Haiku和Sonnet)在极长输入时,预填充阶段会遇到瓶颈。但对于绝大多数日常使用场景,这个technique几乎是免费的。
重要提醒:只对"非推理"任务有效
研究人员还发现了一个关键限制:这个方法对推理任务几乎无效。
图4:在要求模型"逐步思考"时,重复Prompt与基线的准确率对比。星号表示具有统计学意义的胜利。重复Prompt在28次测试中赢了5场,负1场。
当他们把重复Prompt和"思维链"(Chain of Thought)结合使用时,效果消失了——变成了5胜1负22平,基本原地踏步。
原因很有意思:推理模型自己在"思考"的时候,其实已经做了一种隐式的重复。当模型展示推理过程时,它通常会在生成的内容中先复述一遍问题,然后才开始解答。所以对推理模型来说,你再重复Prompt就变成画蛇添足了。
重复Prompt的最佳场景是:
需要快速、直接答案的任务
从长文档中提取特定信息
需要精确检索的任务
分类、实体提取、简单问答
不适合的场景:
需要复杂推理的问题
需要展示推理过程的任务
已经启用"思维链"的场景
思考
这个研究让我想起了Prompt Engineering领域的一个趋势:我们总是把事情搞得太复杂。
过去几年,我们发明了CoT、Self-Consistency、Tree of Thoughts、Emotional Prompting等各种花哨的技巧。但Google Research告诉我们,有时候最简单的办法反而最有效。
当然,这并不意味着要抛弃其他技巧。重复Prompt是一个"免费的午餐",你可以和任何其他技巧叠加使用。但它提醒我们:在追求复杂解决方案之前,先试试最朴素的办法。
研究人员预测,未来我们可能会看到推理引擎在后台自动重复用户的prompt,或者专门训练模型来内化这种重复策略。
在那之前,如果你正在为模型不听话、信息提取不准确而烦恼,记住这个技巧:再说一遍。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~