LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略

LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略

目录

LongCat-Flash-Thinking-2601的简介

1、特点

XXX的安装和使用方法

1、安装

2、使用方法

聊天模板概览

部署

在线体验

3、代码示例

多轮对话 (Multi-Turn Dialogue)

工具调用 (Tool Calling)

LongCat-Flash-Thinking-2601的案例应用


LongCat-Flash-Thinking-2601的简介

LongCat-Flash-Thinking-2601 是美团发布的 LongCat-Flash-Thinking 系列的更新版本。它是一款功能强大且高效大型推理模型(Large Reasoning Model, LRM),基于创新的专家混合(Mixture-of-Experts,MoE)架构构建。

该模型的总参数量达到5600 亿,激活参数量为270 亿。它不仅继承了先前版本的领域并行训练方法,在传统推理基准上保持了极高的竞争力,还通过一个精心设计的流程系统性地增强了其“智能体思维”(agentic thinking)能力。该流程结合了环境扩展(environment scaling)、后续任务合成(task synthesis),以及可靠高效的大规模多环境强化学习。

为了更好地适应现实世界智能体任务中固有的噪声和不确定性,模型在多种类型和级别的环境噪声下进行了系统的分析和课程学习(curriculum training),使其在非理想条件下也能表现出强大的性能。因此,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中取得了顶级性能,还在任意的分布外(out-of-distribution)真实世界智能体场景中展现了显著提升的泛化能力。

此外,该模型还引入了“重思考模式”(Heavy Thinking Mode),通过密集的并行思考,进一步增强了模型在应对极端挑战性任务时的表现。

Huggingface地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

1、特点

LongCat-Flash-Thinking-2601 的核心优势体现在以下几个方面:

环境扩展与多环境强化学习

- **高质量环境构建**:模型构建了一系列多样化的高质量环境作为强化学习的“训练场”。每个环境包含超过60个工具,这些工具组织在一个密集的依赖关系图中,为构建复杂任务和大规模探索提供了充足的复杂度。研究发现,随着训练环境数量的增加,模型在领域外评估中的表现持续提升,表明其泛化能力得到加强。

- **高质量任务构建**:为了保证训练任务的质量,模型明确地控制了任务的复杂性和多样性。每个任务都在从高质量环境中采样出的连通子图上定义,并通过要求在子图内协调使用尽可能多的工具来控制任务复杂度。为了促进任务多样性,先前已选择工具的采样概率会逐渐降低。

- **多环境强化学习**:模型扩展了其强化学习基础设施(DORA),以支持大规模的多环境智能体训练。来自多个环境的任务以平衡的方式被共同组织在每个训练批次中,并根据任务的复杂度和当前训练状态分配不同的推演预算(rollout budgets)。

针对噪声环境的稳健性训练

- **模拟真实世界**:认识到现实世界的智能体环境本质上是充满噪声和不完美的,模型在训练过程中明确地引入了环境缺陷以增强其稳健性。

- **系统性噪声注入**:团队系统性地分析了智能体场景中现实世界噪声的主要来源,并设计了一个自动化流程,将这些噪声注入到训练环境中。

- **课程学习策略**:在强化学习期间,模型采用了一种课程学习策略,随着训练的进行,逐步增加噪声的类型和强度。得益于这种稳健性训练,模型对环境的不确定性表现出强大的韧性,并在非理想条件下持续获得性能提升。

重思考模式

- **目标**:旨在将模型的推理能力推向新的边界

- **两阶段过程**:将挑战性问题的解决分解为两个互补的阶段:并行思考(parallel thinking)和总结(summarization),从而同时扩展推理的深度和广度。

- **推理广度扩展**:在“重思考模式”下,模型以并行方式独立生成多个推理轨迹,从而对推理路径进行广泛探索。通过应用合理较高的推理温度(inference temperature)来确保路径的多样性。

- **推理深度扩展**:在总结阶段提炼出的轨迹可以被递归地反馈给总结模型,形成一个支持逐步深化推理的迭代循环。

- **专项训练**:通过一个额外的、专门为训练总结能力而定制的强化学习阶段,进一步释放了此模式的潜力。您可以在龙猫AI平台(`https://longcat.chat/`)上体验此模式。

LongCat-Flash-Thinking-2601的安装和使用方法

1、安装

模型下载地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601/tree/main

2、使用方法

模型本身无需特殊安装,可以通过标准的 `transformers` 库进行加载和使用。核心步骤是使用 `AutoTokenizer` 和 `AutoModelForCausalLM` 从 Hugging Face Hub 加载模型和分词器。

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "meituan-longcat/LongCat-Flash-Thinking-2601" # 加载分词器和模型 tokenizer = AutoTokenizer.from_pretrained(model_name) # model = AutoModelForCausalLM.from_pretrained(model_name) # 加载模型的标准方式

聊天模板概览

模型的使用核心在于其独特的聊天模板(Chat Template),通过 `apply_chat_template` 方法应用。

为了支持高级工具使用场景和复杂的推理模式,聊天模板进行了重要更新。

基本用法

text = tokenizer.apply_chat_template( messages, tools=tools, tokenize=False, enable_thinking=True, # 启用思考模式 add_generation_prompt=True, save_history_reasoning_content=False # 默认不保存历史思考内容 )

- **模板关键特性**:

1. **工具声明 (Tool Declaration)**: 在会话开始时声明可用工具,以激活模型的工具使用能力并定义可用动作的范围。

2. **交错式思考 (Interleaved Thinking)**: 默认模式。在此模式下,最终的回答会被保留,而先前用户交互中的思考内容会被丢弃,以维持一个简洁的上下文窗口。工具调用和响应会被保留以提供必要的执行历史。

3. **推理保留 (Reasoning Retention)**: 如果需要跨轮次保留模型的思考内容,可以将 `save_history_reasoning_content` 设置为 `True`。

部署

模型已在 SGLang 和 vLLM 中实现了基本适配,以支持部署。详细的部署说明请参考项目文件中的 `Deployment Guide`。

在线体验

您可以在官方网站 `https://longcat.ai` 上与 LongCat-Flash-Thinking-2601 进行聊天。请注意,在提交请求前,需要开启“Think”(中文为“深度思考”)按钮。

3、代码示例

以下是使用 `apply_chat_template` 方法处理不同场景的两个具体代码示例。

多轮对话 (Multi-Turn Dialogue)

此示例演示了模板如何处理对话历史和思考内容。

from transformers import AutoTokenizer #, AutoModelForCausalLM model_name = "meituan-longcat/LongCat-Flash-Thinking-2601" tokenizer = AutoTokenizer.from_pretrained(model_name) # model = AutoModelForCausalLM.from_pretrained(model_name) # 假设模型已加载 messages = [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Please tell me what is $$1 + 1$$ and $$2 \\times 2$$?" }, { "role": "assistant", "reasoning_content": "This question is straightforward: $$1 + 1 = 2$$ and $$2 \\times 2 = 4$$.", "content": "The answers are 2 and 4." }, { "role": "user", "content": "Check again?" } ] # 应用聊天模板,不保存历史思考内容以节省token text = tokenizer.apply_chat_template( messages, tokenize=False, enable_thinking=True, add_generation_prompt=True, save_history_reasoning_content=False ) # 打印生成的模板化文本结构 # 预期结构: <longcat_system>You are a helpful assistant.<longcat_user>Please tell me what is $$1 + 1$$ and $$2 \times 2$$?<longcat_assistant>The answers are 2 and 4</longcat_s><longcat_user>Check again? /think_on <longcat_assistant><longcat_think>\n print(text) # # --- 模型生成部分 --- # model_inputs = tokenizer([text], return_tensors="pt").to(model.device) # generated_ids = model.generate( # **model_inputs, # max_new_tokens=32768 # ) # output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # response = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n") # print(response) # 示例输出: # The user wants a double-check. Since $$1 + 1 = 2$$ and $$2 \times 2 = 4$$ are basic arithmetic truths, the previous answer is correct.\n</longcat_think>\nI have verified the calculations: $$1 + 1 = 2$$ and $$2 \times 2 = 4$$. The initial answer remains correct.</longcat_s>

**说明**: 在这个例子中,由于 `save_history_reasoning_content` 为 `False`,第一轮助手的 `reasoning_content`("This question is straightforward...")在构建第二轮输入的提示时被丢弃,只保留了最终回答 `content`("The answers are 2 and 4.")。模型在生成新一轮回答时,会先生成新的思考过程(`<longcat_think>...</longcat_think>`),然后再给出最终答案。

工具调用 (Tool Calling)

此示例展示了如何在推理框架内集成函数调用。

# from transformers import AutoTokenizer, AutoModelForCausalLM # model_name = "meituan-longcat/LongCat-Flash-Thinking-2601" # tokenizer = AutoTokenizer.from_pretrained(model_name) # model = AutoModelForCausalLM.from_pretrained(model_name) # 假设模型已加载 tools = [ { "type": "function", "function": { "name": "func_add", "description": "Calculate the sum of two numbers", "parameters": { "type": "object", "properties": { "x1": {"type": "number", "description": "The first addend"}, "x2": {"type": "number", "description": "The second addend"} }, "required": ["x1", "x2"] } } } ] messages = [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Please tell me what is $$125679 + 234519$$?" }, { "role": "assistant", "reasoning_content": "This calculation requires precision; I will use the func_add tool.", "tool_calls": [{ "type": "function", "function": { "name": "func_add", "arguments": {"x1": 125679, "x2": 234519} } }] }, { "role": "tool", "name": "func_add", "content": '{"ans": 360198}' } ] text = tokenizer.apply_chat_template( messages, tools=tools, tokenize=False, enable_thinking=True, add_generation_prompt=True, save_history_reasoning_content=False ) # # --- 模型生成部分 --- # model_inputs = tokenizer([text], return_tensors="pt").to(model.device) # # 根据工具结果生成响应 # generated_ids = model.generate( # **model_inputs, # max_new_tokens=32768 # ) # output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # response = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n") # print(response)

**说明**: 在这个例子中,`messages` 列表包含了完整的工具调用流程:

1. 用户提出需要计算的问题。
2. 助手(`assistant`)角色决定使用工具,并在 `tool_calls` 中指定了要调用的函数 `func_add` 及其参数。
3. 工具(`tool`)角色返回了函数执行的结果。
4. 接下来,模型将基于这个工具返回的结果(`{"ans": 360198}`)生成最终的人类可读的回答。

LongCat-Flash-Thinking-2601的案例应用

更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1185716.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

原则 - hacker

总结一下: 1. 人是生物还是机器?瑞达利欧认为,人本质上是一台可被调试的“机器”,通过系统化思维、原则和算法,可以像工程师修理零件一样优化人生,实现精准的成功输出。 2. 从失败中进化:痛苦+反思=进步 达利欧…

Dump分析日记2

步骤 命令 / 操作 场景与目的 关键回显 / 判断标准0 windbg -z IT.Store.dll.31676.dmp 打开 dump 文件 提示 User Mini Dump File with Full Memory 即 OK1 .symfix + .reload 自动设置微软公共符号服务器并拉取符号 …

【大数据】Apache Calcite架构:从 SQL 到执行计划的转换框架

文章目录一、Calcite 架构&#xff1a;只做 SQL 访问框架&#xff0c;不做存储和计算二、Calcite 处理流程&#xff1a;SQL 字符串到执行结果的五阶段转换三、SQL 解析&#xff1a;从字符串到抽象语法树&#xff08;SQL → SqlNode&#xff09;四、SQL 验证&#xff1a;确保语法…

【2026最新】微软常用运行库合集下载安装使用教程(附安装包+图文步骤)

所谓微软常用运行库合集&#xff0c;并不是微软官方打包发布的单一软件&#xff0c;而是国内维护者把从 Visual C 2005 到 2022 各代运行库、Visual Basic 虚拟机、Universal C Runtime、.NET Framework 等几十款系统组件做成的一张“全家桶”安装盘&#xff0c;一键勾选就能把…

基于微信小程序的互助学习平台【源码+文档+调试】

&#x1f525;&#x1f525;作者&#xff1a; 米罗老师 &#x1f525;&#x1f525;个人简介&#xff1a;混迹java圈十余年&#xff0c;精通Java、小程序、数据库等。 &#x1f525;&#x1f525;各类成品Java毕设 。javaweb&#xff0c;ssm&#xff0c;springboot等项目&#…

亚马逊店铺流量突破:从关键词优化到自养号测评的全攻略

在如今竞争白热化的电商市场环境下&#xff0c;亚马逊新店铺想要在琳琅满目的竞争者中崭露头角&#xff0c;实现流量的有效提升&#xff0c;已然成为众多新手卖家面临的一大棘手难题。对于初涉亚马逊平台的卖家而言&#xff0c;精准掌握行之有效的流量提升策略&#xff0c;无疑…

maven生命周期构建和测试发布项目

Maven 有三个主要的生命周期&#xff1a;clean - 清理项目default (或 build) - 项目构建和部署的核心生命周期site - 生成项目文档站点maven生命周期 以下用法详解和作用clean validate compile test package verify install site deploy1. Clean Lifecycle&#xff08;清理生…

基于微信小程序的健身房预约系统【源码+文档+调试】

&#x1f525;&#x1f525;作者&#xff1a; 米罗老师 &#x1f525;&#x1f525;个人简介&#xff1a;混迹java圈十余年&#xff0c;精通Java、小程序、数据库等。 &#x1f525;&#x1f525;各类成品Java毕设 。javaweb&#xff0c;ssm&#xff0c;springboot等项目&#…

Linux通过自动脚本自动化推送k8s Docker镜像

推送脚本 deploy.sh #!/bin/bashwars("服务") services("服务") nameSpacehr-x TAG"v$(date "%Y%m%d%H%M%S")" for i in "${!services[]}"; doserverName${services[$i]};DOCKERFILE"./Docker_$serverName"imageN…

leetcode二分法

二分法力扣704题目&#xff1a;给定一个 n 个元素有序的&#xff08;升序&#xff09;整型数组 nums 和一个目标值 target &#xff0c;写一个函数搜索 nums 中的 target&#xff0c;如果 target 存在返回下标&#xff0c;否则返回 -1。你必须编写一个具有 O(log n) 时间复杂度…

TikTok广告代理商推荐:面向跨境电商与B2B出海企业的技术型服务商盘点 - 智造出海

随着2026年TikTok全球流量算法的精细化调整与《数字服务法案》(DSA)等合规门槛的提升,企业在获取流量时面临着素材生命周期缩短至72小时与归因数据黑盒化的双重挑战。面对这一现状,选择具备技术穿透力与合规风控能…

2026.1.17总结

2: 计算机视觉基础 以下是代码的完整执行流程: 导入库​ → 导入PyTorch及相关工具库 定义CNN模型​ → 构建两层卷积+全连接的神经网络结构 数据准备​ → 下载MNIST数据集并进行标准化预处理 初始化​ → 创建模型、…

windows 删除驱动

管理员模式下运行cmd pnputil /e 查看驱动 pnputil /d xxx.inf 删除指定驱动

推N返1推3返H5商城电商平台抖音快手微信小程序看广告流量主开源

H5电商平台功能介绍 1. 基础电商功能商品展示&#xff1a;商品列表、商品详情页、商品图文介绍用户系统&#xff1a;用户注册、登录、个人信息管理购物车功能&#xff1a;添加商品、修改数量、结算购物车订单管理&#xff1a;创建订单、订单支付、订单状态跟踪收货地址&#xf…

2026.1.16总结

了解PyTorch,虽然啥也看不懂,但是这个东西也许有用 1: PyTorch基础 import torch import torch.nn as nn import torch.optim as optim# 1.1 张量基础 print("PyTorch版本:", torch.__version__) print(&qu…

C++中虚函数调用慢5倍?深入理解vtable和性能开销

“虚函数调用有性能开销”&#xff0c;这句话你肯定听过&#xff0c;但到底慢多少、为什么慢、什么时候需要担心&#xff0c;这些问题很多人其实说不清楚。 虚函数调用大约需要24个时钟周期&#xff0c;而普通函数调用只需要4.2个周期&#xff0c;粗略算下来&#xff0c;慢了将…

Qoder编程开发全指南:从概念到实践的AI驱动编程范式

Qoder作为阿里巴巴推出的下一代Agentic编程平台&#xff0c;代表了AI编程工具从辅助性工具向自主开发者转变的革命性突破。 通过增强上下文工程与智能体无缝结合&#xff0c;Qoder能够全面理解代码库&#xff0c;并以系统化方式推进开发任务&#xff0c;真正实现"需求→交…

AI原生应用领域多模态交互的技术挑战与解决方案

AI原生应用领域多模态交互的技术挑战与解决方案 一、引言 钩子 想象一下,你走进一间智能家居控制的房间,你不仅可以用语音告诉智能音箱打开窗帘、调节灯光亮度,还能通过简单的手势让电视切换到你想看的节目,甚至当你面露疲惫时,智能系统能主动为你播放舒缓的音乐。这种…

RAG系统架构

以上是从原始数据到最终返回 Top-K 结果的完整流程的信息检索或 RAG&#xff08;Retrieval-Augmented Generation&#xff09;系统架构图。整个流程分为四个主要阶段&#xff1a;Extraction&#xff08;提取&#xff09;、Preprocessing&#xff08;预处理&#xff09;、Indexi…

DiFi:当Wi-Fi遇上区块链,重新定义网络访问

在咖啡馆连Wi-Fi时&#xff0c;你可能遇到过类似情况&#xff1a;有人看视频卡顿&#xff0c;有人只是收封邮件却同样忍受低速——传统的网络访问常是“一刀切”的。DiFi尝试改变这一现状&#xff0c;它巧妙融合区块链技术和经济机制&#xff0c;旨在实现更智能、公平的网络资源…