美团智能体SOTA模型LongCat-Flash-Thinking-2601开源

让大模型从会思考进化到会办事。

美团龙猫团队构建了一个能与复杂世界交互的智能体推理模型LongCat-Flash-Thinking-2601。

LongCat-Flash-Thinking-2601是总参数5600亿,激活参数为270亿的MoE模型,在Agentic Search(代理搜索)、Agentic Tool Use(代理工具使用)以及与工具集成的推理任务上展现出了超越现有开源模型的卓越性能,甚至在部分指标上比肩闭源模型。

这是数据构建、环境模拟、强化学习策略以及底层训练设施全方位协同创新设计的成果。

以环境交互构建智能体的认知基石

大模型在数学和编程等纯认知任务上达到了惊人的高度,但要解决现实生活中的复杂问题,仅靠内心的盘算是不够的,模型必须走出封闭的参数世界,学会与外部环境互动。

这种能力被称为Agentic Reasoning(代理推理),它要求模型会思考,还要知道何时调用工具、如何处理工具返回的结果,并在漫长且充满噪声的交互过程中修正自己的行动。

现实世界中关于这种交互的高质量数据极度匮乏。

互联网上充斥着自然语言文本,却很少有详尽记录人类如何一步步使用工具解决问题的结构化数据。

LongCat团队为了打破这一数据瓶颈,设计了一套混合数据合成流水线,从非结构化文本和可执行环境中创造训练数据。

针对海量的文本数据,通过文本过滤和工具提取技术,挖掘出隐含在教程、说明书中的过程性知识,将原本静态的文字转化为动态的用户-代理交互轨迹。

为了增加复杂性,通过工具分解和推理分解两种策略对数据进行增强。

工具分解将简单的工具调用拆解,把一部分参数隐藏在环境中,迫使模型去探索和查询;推理分解则为每一步行动生成多个候选方案,让模型学会像人类一样在行动前进行深思熟虑的权衡。

仅依靠文本合成的数据虽然丰富,但难以保证逻辑的绝对严密和可执行性。

LongCat团队构建了基于Python的轻量级仿真环境,通过明确定义的工具依赖图来模拟现实世界的复杂逻辑。

在这个图中,节点代表工具,边代表参数依赖关系。

通过在图中采样工具链,并利用逆向工程合成与工具链相匹配的用户提示词,系统能够生成逻辑严密且必定可执行的高质量数据。

这种先有答案后有如题目的逆向合成法,确保了每一条训练数据都是脚踏实地的真实交互,而非模型的凭空臆想。

为了让模型学会规划,专门设计了面向规划的数据增强策略。

这包括生成问题分解轨迹,教会模型如何将大目标拆解为小步骤,以及生成带有多个候选路径的决策树,让模型在训练中习得如何从纷繁复杂的可能性中找出最优解。

这种对规划能力的刻意练习,是将线性轨迹转化为结构化多步决策过程的关键。

真正的智能体需要见多识广。

LongCat团队构建了一个自动化环境扩展流水线,覆盖了超过20个领域。

这个流水线能将高层的领域定义自动转化为可执行的代码图谱,生成数据库模式、工具代码以及相应的测试用例。

通过这种方式,成千上万个具有不同逻辑结构和交互模式的环境被创造出来,为模型提供了一个极其丰富的练兵场。

在这个虚拟的演练场中,模型不再是在真空中做题,而是在模拟的真实世界中摸爬滚打,学习如何应对各种意想不到的情况。

从一个简单的工具链种子出发,系统会像滚雪球一样逐步引入新的工具节点,同时利用强求解器来计算寻找新路径的难度,以此来控制环境的生长速度。

这种动态平衡确保了环境既有足够的挑战性,又不至于让模型无从下手,始终处于最近发展区内进行学习。

多域异步强化学习铸就稳健执行力

拥有了数据和环境,下一步是如何让模型在其中高效学习。

强化学习(RL)是激发模型推理能力的关键,但在代理任务中,RL面临着前所未有的挑战。

代理任务通常涉及多轮交互,环境反馈具有长尾分布和高延迟特性,这让传统的同步训练框架显得力不从心。

LongCat团队为此升级了多版本异步训练系统DORA(Dynamic ORchestration for Asynchronous rollout)。

这个系统像是一个极其高效的指挥官,指挥着成千上万个CPU和加速器协同工作。

它采用了生产者-消费者架构,将推理生成(Rollout)和模型训练(Training)解耦,允许不同版本的模型同时在环境中运行。

为了解决长尾任务导致的设备空闲问题,DORA引入了全流式异步管道。

在Rollout阶段,消除了批处理的等待壁垒,让每一个样本都能独立、即时地在远程工人上执行。

无论是快速完成的简单任务,还是需要漫长交互的复杂任务,都不会阻塞整个系统的运行。这种设计极大地提高了硬件资源的利用率,让大规模并行训练成为可能。

在硬件层面,针对560B MoE模型带来的巨大显存压力,实施了Prefill-Decode分离策略,并引入了KV-cache交换技术。

这种技术允许将暂时不用的KV缓存从昂贵的GPU显存交换到CPU内存中,待需要时再快速调回。

这就像是电脑的虚拟内存机制,用较低的成本实现了超大规模上下文的处理能力,确保了在有限的硬件资源下也能进行长序列的代理训练。

真实世界是充满噪声和不完美的。

工具可能会报错,网络可能会延迟,用户的指令可能会含糊不清。

为了让模型适应这种不确定性,LongCat在训练中引入了鲁棒代理训练策略。

不同于以往在温室般的完美环境中训练,LongCat系统地分析了现实世界的噪声模式,设计了自动化流水线,将指令模糊、工具故障等多种噪声注入到训练环境中。

这种噪声注入不是盲目的破坏,而是遵循课程学习的原则,从轻微的扰动开始,随着模型能力的提升逐渐增加噪声的难度。

这就像是飞行员的模拟训练,先在晴空万里下练习,再逐渐加入风暴、引擎故障等极端情况。

实验证明,经过这种魔鬼训练的模型,在面对现实世界的混乱时表现得更加从容不迫,其鲁棒性得到了显著提升。

为了解决多领域训练中的数据不平衡问题,采用了动态预算分配策略。

系统会实时监控模型在各个任务上的通过率,利用动态价值函数来评估每个任务的学习价值。

对于那些模型尚未掌握但又有希望攻克的任务,系统会慷慨地分配更多的计算资源;而对于那些过于简单或暂时无法解决的任务,则减少投入。

智能的资源调度,确保了模型始终将精力集中在最具性价比的学习目标上,极大地提高了训练效率。

除了作为行动者(Actor),模型还被训练作为验证者(Verifier)。

这种自我验证机制要求模型不仅要能生成解决方案,还要能评估自己方案的正确性。

在训练出现停滞时,激活验证训练阶段,利用模型对自己生成的轨迹进行打分。

由于验证通常比生成更容易,这为模型提供了额外的监督信号,帮助其突破瓶颈,避免陷入生成错误答案的死胡同。

测试时重度思考拓展推理边界

训练完成的模型,LongCat引入了Heavy Thinking(重度思考)模式,利用测试时计算扩展(Test-Time Scaling)进一步释放模型的潜力。

通过并行推理和迭代修正,在推理的广度和深度上同时进行扩展。

Heavy Thinking模式分为两个阶段:并行推理和重度思考。

在第一阶段,模型像是一个集思广益的团队,并行生成多个候选的推理轨迹。这不仅增加了探索不同解题路径的可能性,也为后续的决策提供了丰富的参考素材。

在第二阶段,一个专门的总结模型会对这些并行生成的轨迹进行反思和整合。

为了支持这种复杂的思考过程,引入了上下文记忆模块。

这个模块像是一个会议记录员,忠实地记录下每一轮推理和交互的信息。总结模型接收来自并行推理阶段的历史消息,感知当前的上下文,然后生成最终的响应。

这种设计巧妙地解决了多轮对话和工具使用中的信息遗忘问题,让模型能够在一个连贯的思维流中进行深度的逻辑推演。

先发散后收敛的思考模式,使得LongCat-Flash-Thinking-2601在处理极具挑战性的任务时表现出了惊人的韧性。

它不再是一条道走到黑,而是能够在多种可能性中进行权衡,甚至能够修正自己在前几步中的错误判断。

实验数据显示,随着测试时计算预算的增加,Heavy Thinking模式带来的性能提升远超传统的Self-Consistency(自洽性)方法,证明了这种深度与广度并重的策略是提升复杂推理能力的有效途径。

在处理长周期任务时,上下文窗口的管理至关重要。

LongCat采用了混合上下文管理策略,结合了基于摘要的压缩和基于丢弃的重置。

当上下文长度超过一定阈值(如80K tokens)时,模型会将历史工具调用结果压缩为简洁的摘要;而当交互轮数过多时,则会触发重置机制,只保留最关键的原始问题和当前状态。

这种灵活的策略在保留关键信息和控制计算开销之间找到了完美的平衡点,使得模型能够支持几乎无限长的交互过程。

高效架构设计支撑百万级上下文

针对长上下文带来的计算压力,LongCat团队探索并开源了Zigzag注意力(Zigzag Attention)机制。这种稀疏注意力机制,旨在解决全注意力机制在长序列下计算复杂度呈二次方增长的难题。

Zigzag Attention巧妙地结合了多头潜在注意力(MLA)和流式稀疏注意力(SSA)。它将注意力限制在一个固定的键值块集合中,包括最近的局部窗口和序列开头的少量初始令牌。让计算量与序列长度呈次线性关系,极大地降低了推理时的延迟和显存占用。

更精妙的是Zigzag的连接方式。它采用层级交错的稀疏化策略,大约50%的层被替换为SSA层,其余层保留全注意力。

虽然每个SSA层只关注局部,但通过层与层之间的交叉组合,信息得以在整个序列中传播,形成了一种类似Z字形的连接路径。在保证了全局信息可达性的同时,避免了传统稀疏注意力可能带来的性能损失。

配合YaRN位置编码扩展,Zigzag Attention使得模型能够轻松处理长达100万个token的上下文。

这对于阅读长篇文档、分析整个代码库或进行超长周期的代理交互来说,无疑是一个巨大的福音。

实验表明,引入Zigzag Attention后,模型在保持推理性能和代理能力几乎不变的情况下,实现了约1.5倍的端到端推理加速。

LongCat-Flash-Thinking-2601技术,是一整套针对通用智能体构建的系统性工程方法论。

从逆向工程的数据合成到图论指导的环境扩展,从异步并行的强化学习架构到深度广度并重的推理模式,每一个环节都环环相扣,共同让AI真正具备在复杂世界中解决问题的能力。

模型在数学推理、代码编写、网页搜索等多个领域表现优异。开源SOTA,比肩顶级闭源模型。

LongCat-Flash-Thinking-2601让模型在与环境的真实交互中不断进化,像人类一样在实践中学习,在错误中成长。

代码和检查点的开源,为全球开发者、研究者提供了一个强大的基石。

参考资料:

https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

https://huggingface.co/meituan-longcat

https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1224177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文件上传漏洞原理

一,文件上传漏洞定义 文件上传漏洞是web系统中常见的一种功能,通过文件上传能实现上传图片、视频,以及其他类型的文件,但是随着web中包含的功能越来越多,潜在的网络安全风险也就越大。 如果恶意用户上传了可执行的文…

SpringCloud网页如何上传大文件夹并保留目录?

大文件传输解决方案 作为福建农业集团的项目负责人,我理解您面临的是一个具有挑战性的大文件传输需求,涉及国家安全级别的高要求。基于您提供的详细需求,我将从技术架构、解决方案和源代码示例三个方面为您提供专业建议。 一、需求分析与技…

SpringMVC分块上传大文件有什么技巧?

大文件传输系统解决方案 作为广东某软件有限公司的项目负责人,针对贵司提出的政府级大文件传输系统需求,我司提供以下专业解决方案。 需求分析与痛点解决 核心需求匹配 超大文件传输:支持100G单文件传输,文件夹传输保留层级结…

UEDITOR的ELECTRON版本如何优化WORD图片转存速度?

企业级Word导入与粘贴功能解决方案 作为安徽IT行业集团上市公司的项目负责人,针对文章中提出的需求,我将提供一套完整的解决方案。 一、需求分析与技术评估 核心需求总结 Word粘贴功能:支持从Word复制内容粘贴到编辑器中,自动…

农业数据平台如何利用UEDITOR在ELECTRON中导入WORD图表?

企业级Word内容导入解决方案需求分析报告 需求背景 作为广东科技小巨人领军企业的项目负责人,我司在政府、军工、金融等领域承接了大量信息化建设项目。近期多个项目组反馈,客户强烈要求在CMS系统中增加专业级Word内容导入功能,以满足政府公…

如何解决UEDITOR在ELECTRON下WORD图片上传失败的问题?

各位PHP卷王看过来!福建码农的CMS逆袭之路(附680元暴富指南) 大家好,我是福建某外包公司"PHP接单战神",最近刚接了个企业官网项目,客户非要让我给UEditor加上Word/Excel/PPT/PDF一键导入功能&am…

金融系统开发中,UEDITOR的ELECTRON插件如何处理WORD报表图片?

项目需求分析与解决方案报告 一、需求背景与核心痛点 功能需求 Word粘贴与导入:支持从Word复制内容(含表格、公式、图片、样式)粘贴至UEditor,图片自动上传至华为云OBS(兼容未来迁移至阿里云/腾讯云等对象存储&#x…

好写作AI:用AI写论文一年后,我的学术能力被“废了”还是“进化了”?

当你长期依赖导航,会不会失去认路能力?当我们把这个问题抛给“长期使用好写作AI”的用户时,得到的答案出乎意料。 我们经常听到这样的灵魂拷问:“老用AI写论文,你们自己的写作能力不会退化吗?” 这确实是个…

完整教程:sward零基础学习,如何在sward文档中集成Kanass事项

完整教程:sward零基础学习,如何在sward文档中集成Kanass事项2026-01-27 13:30 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !impor…

好写作AI:当“学术保姆”遇见“智能伙伴”,你的论文该跟谁走?

为了提升论文质量,你试过深夜骚扰导师,也试过和写作辅导中心的老师促膝长谈——现在,又多了一个24小时在线的AI队友。所以,到底谁是真爱?每个在论文苦海中挣扎的人,都面临过这个“资源分配”的终极难题&…

如何使用 OKHttp 达成 HTTP/2 多路复用?

如何使用 OKHttp 达成 HTTP/2 多路复用?pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "M…

好写作AI:让论文投稿从“手动相亲”进化到“精准速配”

当你终于改完论文,却发现真正的折磨才刚刚开始——在几十家期刊的投稿系统里,重复填写作者信息、上传不同格式的文件、勾选那些永远看不懂的伦理声明……这感觉,像用传真机参加星际通信。如果你也经历过论文投稿的“机械地狱”——把同一篇论…

千匠网络福利商城解决方案:AI赋能,打造智慧化三方服务生态

在数字化转型的浪潮中,企业福利管理正逐步从传统模式向智能化、个性化方向演进。千匠网络福利商城解决方案,以AI技术为核心引擎,深度融合供应链资源与平台运营能力,面向第三方服务商(如人才公司、福利礼品机构等)…

好写作AI:让你在真正的“学术狼人杀”前,先和自己人“杀”几盘

当你把论文送审,就像把精心养大的孩子送进一个漆黑的房间,里面坐着几位你不知道是谁、但手握“生死票”的评委——这种体验,我们称之为“学术开盲盒”。几乎每位毕业生在提交论文后,都会陷入一种“审稿前焦虑”:那些未…

好写作AI:别卷了!你的论文写作路径,AI说可以“私人订制”

写论文像旅游,有人做足攻略按部就班,有人喜欢迷路了再说——但最惨的是,所有人都被塞进了同一辆“论文流水线大巴”。 你是否发现,网上那些“毕业论文七日速成攻略”,对你而言可能毫无用处?因为每个人的知识…

好写作AI:拯救“图不对文”的学术灾难,让图表自己“开口说话”

当你的论文评审人皱起眉头,在“图表5”和“正文第4.3节”之间来回翻看时——完了,你的“图文精分”症状,又被发现了。 学术圈里有个心照不宣的秘密:很多人论文里的精美图表,和下面那几行干巴巴的“如图X所示&#xff0…

红外压片机推荐品牌厂家

红外压片机是红外光谱分析样品前处理的关键设备,广泛应用于化工、制药、材料、科研等领域。以下是业内具有良好口碑的品牌厂家推荐。国际知名品牌珀金埃尔默(PerkinElmer)国际顶尖分析仪器制造商,压片机产品线齐全产…

OX40(CD134):横跨肿瘤与自免的双向免疫调控靶点

OX40(又称 CD134,由 TNFRSF4 基因编码)作为肿瘤坏死因子受体(TNFR)超家族的关键共刺激分子,凭借 “激活抗肿瘤免疫、抑制自身免疫炎症” 的双向调控能力,成为生物制药领域的核心研发靶点。其功能实现依赖与配体…

华润万家超市卡回收核心攻略,高效变现平台推荐

华润万家超市卡回收核心攻略,高效变现平台推荐手里有张华润万家超市卡,先别急着找回收渠道。先翻开卡片背面,瞅瞅有效期还剩多久,面值是三百还是五百。记得上次邻居张姨就因为没注意有效期,差点让一张五百的卡白白…

2026国内最新柜子定制板材品牌top10推荐!优质板材制造商权威榜单发布,健康环保与美学设计双优助力高品质家居生活

随着国民家居消费升级,柜子定制板材市场呈现爆发式增长,但行业存在环保标准参差不齐、工艺精度差异大、设计同质化等问题。据中国林产工业协会最新行业报告显示,国内柜子定制板材环保达标率仅为72%,饰面工艺不合格…