美团龙猫LongCat技术升级!新注意力机制解码速度快十倍,还能处理1M超长文本

美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)。

256K文本预加载提速超50%,还解锁了1M上下文窗口。

美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)

新技术集中火力,重点解决长文本任务的理解、算力难题。

相比于LongCat系列之前的全注意力MLA机制,LoZA只改了一半的核心模块。

但模型长文本能力从256K扩展到1M,解码速度还快了不少。

甚至比同类型的Qwen-3模型表现还要好。

接下来看具体方案。

如何做到 “只算关键部分” ?

全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²),这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。

LoZA的核心思路是专注于处理重要的内容,不重要的部分少花力气。

作为LongCat系列的核心技术升级,LoZA主要是在原来的MLA机制上做改造。

具体分两步。

首先,给模型里的多头潜在注意力模块MLA做一个全局“筛查”,找出哪些模块可以被改造。

在原来的MLA架构中,每个MLA模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重α。

α值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。

在训练过程中,团队冻结模型其他参数,只更新α的梯度,通过这种专门的校准训练让模型自主学习α值,然后按α值从小到大排序,找出那些稀疏化后不影响性能的MLA模块,也就是后续的优化目标。

随后,将找出的50%低性能模块换成更轻巧的流式稀疏注意力SSA

这样就形成了一种交错结构,团队将这种结构称为ZigZag

SSA的计算复杂度是线性的O (L·S)(S为稀疏窗口大小,固定为1024Token),远低于全注意力的O (L²)。

所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。

为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA还设计了一个1024Token稀疏窗口

每个窗口里有1个负责抓整体关联的“全局块”和7个负责盯附近内容的“局部块”,单块大小为128Token。

这样的改造也不需要从头训练,在中期训练阶段就能完成,成本也比较低。

从测试数据来看,LoZA的表现也不错,主要是“更快”的同时“没变笨”

速度上,要是处理128K上下文,解码速度直接比原来快10倍;

256K上下文,模型预加载(读文本过程)速度快了50%,后续解码阶段生成内容时还能省30%的算力,相当于同样的硬件,现在能同时处理两倍多的长文本任务。

这也让LongCat-Flash-Exp解锁了1M上下文窗口。

性能上,LoZA也没因为简化而缩水。

处理回答问题、写代码这类日常任务时,和原版LongCat-Flash持平;处理长文本任务时,表现反而更好。

比如在MRCR测试里,反超了同样能处理1M长文本的Qwen-3模型,还更稳定。

接下来,团队还计划让LoZA支持动态稀疏比例

短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。

好一个新年新气象!

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155062.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法备案自评估不返工!高频驳回原因与核心要点解析

一、自评估报告常见驳回原因在算法备案的实操过程中,我们发现很多企业被驳回的报告往往栽在几个非常具体的细节上,这些细节甚至与算法的代码无关,纯粹是“证据链”的缺失:1.使用第三方模型但报告中没有有效的第三方购买记录最典型…

如何在开发中高效抓取美股 tick 数据?

在美股交易系统中,每秒都可能产生成千上万条 tick 数据。想象一下,如果你的程序能实时抓到这些数据,策略的反应速度会不会直接提升?对于开发者来说,这不仅仅是“抓数据”,更是让系统更敏捷、更智能的关键环…

SF Cinema 采用科视Christie激光放映技术升级观影体验

SF Cinema已在泰国 14 家影院部署 CineLife RGB 纯激光及日初系列放映机 曼谷(2026 年 1 月 13 日):科视Christie 宣布,泰国第二大连锁影院品牌 SF Cinema已在其遍布全国的 14 家影院部署 CineLife™ 系列 RGB 纯激光及日初系列激…

收藏!Java开发者转型AI不难,这份实战指南帮你快速入局

“Java开发者转型AI,到底行不行?” 这是不少深耕传统Java开发的工程师,面对AI技术浪潮时最常纠结的问题。今天直接给出明确答案:对Java开发者而言,转型AI应用开发不仅门槛远低于预期,更能凭借原有技术积累抢…

你家的电为何很少断电?秘密藏在地下电缆的在线监测中

每天,当我们打开开关,电力便如魔法般涌现。但你是否想过,这些能量是如何从社区配电房,精准抵达每一户家庭墙上的插座?答案,就隐藏在地下的电缆网络中——它们如同城市的“地下神经网络”,默默承…

Python 肢体动作追踪项目(基于 MediaPipe + OpenCV)

Python 肢体动作追踪项目(基于MediaPipe OpenCV) 本文简单介绍一个可直接运行的Python肢体动作追踪项目,核心将采用MediaPipe Pose(谷歌开源的高精度姿态估计工具)结合OpenCV(图像/视频处理库)…

Flutter艺术探索-Flutter自定义组件:组合与封装技巧

Flutter自定义组件:从组合到封装的全链路指南 引言:自定义组件,为什么是Flutter开发者的必修课? 在Flutter的世界里,“一切皆为组件”不仅仅是一句口号,更是我们构建界面的基本方式。尽管Flutter自带了一个…

循环神经网络与文本处理:编码器-解码器架构及其应用

编码器-解码器架构 学习目标 通过本课程,学员将了解到编码器-解码器架构的基本原理、组成组件以及其在机器翻译等序列转换问题中的应用。 相关知识点 编码器-解码器架构 学习内容 1 编码器-解码器架构 1.1 编码器 机器翻译是序列转换模型的一个核心问题,…

Flutter艺术探索-Flutter调试工具:DevTools使用指南

Flutter调试利器:手把手带你玩转DevTools 引言 开发Flutter应用时,卡顿、内存泄漏或是UI渲染异常,这些问题你肯定遇到过。光靠print调试显然不够用,这时候,一个强大的调试工具就是你的“救命稻草”。Flutter DevTools正…

循环神经网络与文本处理:深度循环神经网络的实现与应用

深度循环神经网络 学习目标 通过学习本课程,学员将了解深度循环神经网络的函数依赖关系,简洁实现,训练与预测。 相关知识点 深度循环神经网络 学习内容 讨论一个具有单向隐藏层的循环神经网络。其中,隐变量和观测值与具体的函数形…

Promise 吞错太坑?前端老鸟教你揪出那些藏起来的错误

Promise 吞错太坑?前端老鸟教你揪出那些藏起来的错误Promise 吞错太坑?前端老鸟教你揪出那些藏起来的错误错误去哪了?—— 一场“无声”的坠机Promise 为啥爱“吃白食”?现场还原:四个最容易踩的坑1. then 里 throw 完…

长尾关键词如何助力SEO策略优化与网站流量提升

长尾关键词是SEO策略中不可或缺的组成部分,因其能够为网站带来更精准的流量。通常,这些关键词由多个词组成,比传统关键词更具针对性,帮助满足用户特定的搜索需求。在实施长尾关键词策略时,网站需要关注内容的相关性&am…

【笔试真题】- 华子-2026.01.07-研发岗

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围在线刷题 bishipass.com 华子-2026.01.07-研发岗 题目一:预约订单收益最大化 1️⃣:使用动态规划思想,维护两个状态变量 2️⃣:利用状态转移方程 f[i] = max(f[i-1], f[i-2] + val[…

Flutter device_info_plus库在鸿蒙端的设备信息获取适配实践

Flutter device_info_plus库在鸿蒙端的设备信息获取适配实践 引言 OpenHarmony(以下简称鸿蒙)生态这几年发展很快,分布式架构和全场景能力吸引了越来越多开发者的目光。在这种背景下,跨平台开发框架与鸿蒙的深度融合,已…

Flutter艺术探索-Flutter状态管理入门:setState最佳实践

Flutter状态管理入门:setState 最佳实践指南 引言:从命令式到声明式的思维转变 Flutter 作为谷歌主推的跨平台 UI 框架,其核心特点之一是采用了声明式编程范式。这与我们熟悉的命令式 UI 开发(比如 Android 的 View 系统或原生 iO…

AI技术赋能SEO关键词优化策略新路径解析

在数字化营销的背景下,AI技术的应用为SEO关键词优化带来了前所未有的可能。AI通过先进的数据分析能力,能够快速识别出用户的搜索需求和市场变化。这使得企业在选择关键词时更加精准,提高了关键词布局的科学性和有效性。运用自然语言处理和机器…

【笔试真题】- 华子-2026.01.07-算法岗

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围在线刷题 bishipass.com 华子-2026.01.07-算法岗 2026.01.07 华子算法岗笔试题解 题目一:AI 算法基础知识测评 1️⃣:建立题号到答案的映射字典 2️⃣:输入题号,直接查表输出对应答…

深度测评本科生必用的8个AI论文平台

深度测评本科生必用的8个AI论文平台 2026年本科生论文写作工具测评:如何选择高效实用的AI平台 随着人工智能技术在学术领域的深入应用,越来越多的本科生开始借助AI论文平台提升写作效率与质量。然而,面对市场上琳琅满目的工具,如何…

长尾关键词在关键词优化中提升SEO效果的有效策略

在关键词优化中,长尾关键词扮演着至关重要的角色。它们不仅有助于提高网站在搜索引擎中的排名,还能吸引更精准的用户群体。长尾关键词通常更长且具体,通常包含三到五个词,不同于更为宽泛的短尾关键词。由于竞争较小,优…

Flutter艺术探索-Flutter响应式设计:MediaQuery与LayoutBuilder

Flutter响应式设计:MediaQuery与LayoutBuilder深度解析 引言:为什么响应式设计非做不可? 如今,用户的设备琳琅满目,从握在手里的手机、桌上的平板,到新兴的折叠屏乃至桌面应用,屏幕尺寸和形态千…