让大模型从会思考进化到会办事。
美团龙猫团队构建了一个能与复杂世界交互的智能体推理模型LongCat-Flash-Thinking-2601。
LongCat-Flash-Thinking-2601是总参数5600亿,激活参数为270亿的MoE模型,在Agentic Search(代理搜索)、Agentic Tool Use(代理工具使用)以及与工具集成的推理任务上展现出了超越现有开源模型的卓越性能,甚至在部分指标上比肩闭源模型。
这是数据构建、环境模拟、强化学习策略以及底层训练设施全方位协同创新设计的成果。
以环境交互构建智能体的认知基石
大模型在数学和编程等纯认知任务上达到了惊人的高度,但要解决现实生活中的复杂问题,仅靠内心的盘算是不够的,模型必须走出封闭的参数世界,学会与外部环境互动。
这种能力被称为Agentic Reasoning(代理推理),它要求模型会思考,还要知道何时调用工具、如何处理工具返回的结果,并在漫长且充满噪声的交互过程中修正自己的行动。
现实世界中关于这种交互的高质量数据极度匮乏。
互联网上充斥着自然语言文本,却很少有详尽记录人类如何一步步使用工具解决问题的结构化数据。
LongCat团队为了打破这一数据瓶颈,设计了一套混合数据合成流水线,从非结构化文本和可执行环境中创造训练数据。
针对海量的文本数据,通过文本过滤和工具提取技术,挖掘出隐含在教程、说明书中的过程性知识,将原本静态的文字转化为动态的用户-代理交互轨迹。
为了增加复杂性,通过工具分解和推理分解两种策略对数据进行增强。
工具分解将简单的工具调用拆解,把一部分参数隐藏在环境中,迫使模型去探索和查询;推理分解则为每一步行动生成多个候选方案,让模型学会像人类一样在行动前进行深思熟虑的权衡。
仅依靠文本合成的数据虽然丰富,但难以保证逻辑的绝对严密和可执行性。
LongCat团队构建了基于Python的轻量级仿真环境,通过明确定义的工具依赖图来模拟现实世界的复杂逻辑。
在这个图中,节点代表工具,边代表参数依赖关系。
通过在图中采样工具链,并利用逆向工程合成与工具链相匹配的用户提示词,系统能够生成逻辑严密且必定可执行的高质量数据。
这种先有答案后有如题目的逆向合成法,确保了每一条训练数据都是脚踏实地的真实交互,而非模型的凭空臆想。
为了让模型学会规划,专门设计了面向规划的数据增强策略。
这包括生成问题分解轨迹,教会模型如何将大目标拆解为小步骤,以及生成带有多个候选路径的决策树,让模型在训练中习得如何从纷繁复杂的可能性中找出最优解。
这种对规划能力的刻意练习,是将线性轨迹转化为结构化多步决策过程的关键。
真正的智能体需要见多识广。
LongCat团队构建了一个自动化环境扩展流水线,覆盖了超过20个领域。
这个流水线能将高层的领域定义自动转化为可执行的代码图谱,生成数据库模式、工具代码以及相应的测试用例。
通过这种方式,成千上万个具有不同逻辑结构和交互模式的环境被创造出来,为模型提供了一个极其丰富的练兵场。
在这个虚拟的演练场中,模型不再是在真空中做题,而是在模拟的真实世界中摸爬滚打,学习如何应对各种意想不到的情况。
从一个简单的工具链种子出发,系统会像滚雪球一样逐步引入新的工具节点,同时利用强求解器来计算寻找新路径的难度,以此来控制环境的生长速度。
这种动态平衡确保了环境既有足够的挑战性,又不至于让模型无从下手,始终处于最近发展区内进行学习。
多域异步强化学习铸就稳健执行力
拥有了数据和环境,下一步是如何让模型在其中高效学习。
强化学习(RL)是激发模型推理能力的关键,但在代理任务中,RL面临着前所未有的挑战。
代理任务通常涉及多轮交互,环境反馈具有长尾分布和高延迟特性,这让传统的同步训练框架显得力不从心。
LongCat团队为此升级了多版本异步训练系统DORA(Dynamic ORchestration for Asynchronous rollout)。
这个系统像是一个极其高效的指挥官,指挥着成千上万个CPU和加速器协同工作。
它采用了生产者-消费者架构,将推理生成(Rollout)和模型训练(Training)解耦,允许不同版本的模型同时在环境中运行。
为了解决长尾任务导致的设备空闲问题,DORA引入了全流式异步管道。
在Rollout阶段,消除了批处理的等待壁垒,让每一个样本都能独立、即时地在远程工人上执行。
无论是快速完成的简单任务,还是需要漫长交互的复杂任务,都不会阻塞整个系统的运行。这种设计极大地提高了硬件资源的利用率,让大规模并行训练成为可能。
在硬件层面,针对560B MoE模型带来的巨大显存压力,实施了Prefill-Decode分离策略,并引入了KV-cache交换技术。
这种技术允许将暂时不用的KV缓存从昂贵的GPU显存交换到CPU内存中,待需要时再快速调回。
这就像是电脑的虚拟内存机制,用较低的成本实现了超大规模上下文的处理能力,确保了在有限的硬件资源下也能进行长序列的代理训练。
真实世界是充满噪声和不完美的。
工具可能会报错,网络可能会延迟,用户的指令可能会含糊不清。
为了让模型适应这种不确定性,LongCat在训练中引入了鲁棒代理训练策略。
不同于以往在温室般的完美环境中训练,LongCat系统地分析了现实世界的噪声模式,设计了自动化流水线,将指令模糊、工具故障等多种噪声注入到训练环境中。
这种噪声注入不是盲目的破坏,而是遵循课程学习的原则,从轻微的扰动开始,随着模型能力的提升逐渐增加噪声的难度。
这就像是飞行员的模拟训练,先在晴空万里下练习,再逐渐加入风暴、引擎故障等极端情况。
实验证明,经过这种魔鬼训练的模型,在面对现实世界的混乱时表现得更加从容不迫,其鲁棒性得到了显著提升。
为了解决多领域训练中的数据不平衡问题,采用了动态预算分配策略。
系统会实时监控模型在各个任务上的通过率,利用动态价值函数来评估每个任务的学习价值。
对于那些模型尚未掌握但又有希望攻克的任务,系统会慷慨地分配更多的计算资源;而对于那些过于简单或暂时无法解决的任务,则减少投入。
智能的资源调度,确保了模型始终将精力集中在最具性价比的学习目标上,极大地提高了训练效率。
除了作为行动者(Actor),模型还被训练作为验证者(Verifier)。
这种自我验证机制要求模型不仅要能生成解决方案,还要能评估自己方案的正确性。
在训练出现停滞时,激活验证训练阶段,利用模型对自己生成的轨迹进行打分。
由于验证通常比生成更容易,这为模型提供了额外的监督信号,帮助其突破瓶颈,避免陷入生成错误答案的死胡同。
测试时重度思考拓展推理边界
训练完成的模型,LongCat引入了Heavy Thinking(重度思考)模式,利用测试时计算扩展(Test-Time Scaling)进一步释放模型的潜力。
通过并行推理和迭代修正,在推理的广度和深度上同时进行扩展。
Heavy Thinking模式分为两个阶段:并行推理和重度思考。
在第一阶段,模型像是一个集思广益的团队,并行生成多个候选的推理轨迹。这不仅增加了探索不同解题路径的可能性,也为后续的决策提供了丰富的参考素材。
在第二阶段,一个专门的总结模型会对这些并行生成的轨迹进行反思和整合。
为了支持这种复杂的思考过程,引入了上下文记忆模块。
这个模块像是一个会议记录员,忠实地记录下每一轮推理和交互的信息。总结模型接收来自并行推理阶段的历史消息,感知当前的上下文,然后生成最终的响应。
这种设计巧妙地解决了多轮对话和工具使用中的信息遗忘问题,让模型能够在一个连贯的思维流中进行深度的逻辑推演。
先发散后收敛的思考模式,使得LongCat-Flash-Thinking-2601在处理极具挑战性的任务时表现出了惊人的韧性。
它不再是一条道走到黑,而是能够在多种可能性中进行权衡,甚至能够修正自己在前几步中的错误判断。
实验数据显示,随着测试时计算预算的增加,Heavy Thinking模式带来的性能提升远超传统的Self-Consistency(自洽性)方法,证明了这种深度与广度并重的策略是提升复杂推理能力的有效途径。
在处理长周期任务时,上下文窗口的管理至关重要。
LongCat采用了混合上下文管理策略,结合了基于摘要的压缩和基于丢弃的重置。
当上下文长度超过一定阈值(如80K tokens)时,模型会将历史工具调用结果压缩为简洁的摘要;而当交互轮数过多时,则会触发重置机制,只保留最关键的原始问题和当前状态。
这种灵活的策略在保留关键信息和控制计算开销之间找到了完美的平衡点,使得模型能够支持几乎无限长的交互过程。
高效架构设计支撑百万级上下文
针对长上下文带来的计算压力,LongCat团队探索并开源了Zigzag注意力(Zigzag Attention)机制。这种稀疏注意力机制,旨在解决全注意力机制在长序列下计算复杂度呈二次方增长的难题。
Zigzag Attention巧妙地结合了多头潜在注意力(MLA)和流式稀疏注意力(SSA)。它将注意力限制在一个固定的键值块集合中,包括最近的局部窗口和序列开头的少量初始令牌。让计算量与序列长度呈次线性关系,极大地降低了推理时的延迟和显存占用。
更精妙的是Zigzag的连接方式。它采用层级交错的稀疏化策略,大约50%的层被替换为SSA层,其余层保留全注意力。
虽然每个SSA层只关注局部,但通过层与层之间的交叉组合,信息得以在整个序列中传播,形成了一种类似Z字形的连接路径。在保证了全局信息可达性的同时,避免了传统稀疏注意力可能带来的性能损失。
配合YaRN位置编码扩展,Zigzag Attention使得模型能够轻松处理长达100万个token的上下文。
这对于阅读长篇文档、分析整个代码库或进行超长周期的代理交互来说,无疑是一个巨大的福音。
实验表明,引入Zigzag Attention后,模型在保持推理性能和代理能力几乎不变的情况下,实现了约1.5倍的端到端推理加速。
LongCat-Flash-Thinking-2601技术,是一整套针对通用智能体构建的系统性工程方法论。
从逆向工程的数据合成到图论指导的环境扩展,从异步并行的强化学习架构到深度广度并重的推理模式,每一个环节都环环相扣,共同让AI真正具备在复杂世界中解决问题的能力。
模型在数学推理、代码编写、网页搜索等多个领域表现优异。开源SOTA,比肩顶级闭源模型。
LongCat-Flash-Thinking-2601让模型在与环境的真实交互中不断进化,像人类一样在实践中学习,在错误中成长。
代码和检查点的开源,为全球开发者、研究者提供了一个强大的基石。
参考资料:
https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
https://huggingface.co/meituan-longcat
https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601