线性注意力(Linear Attention, LA)学习

news/2026/1/21 12:26:53/文章来源:https://www.cnblogs.com/strivy/p/19510978

定义:采用矩阵乘法结合律的特点,所设计的一种\(\mathcal{O}(n)\)时间复杂度的注意力机制

一、softmax注意力机制

设输入特征\(x\)大小为\(N×F\),其是由\(N\)个维度为\(F\)的特征向量构成的序列(往往\(N\gg F\)

Transformer的一般表示形式为:

\[T(x) = f(A(x) + x) \tag{1} \]

其中,\(A(\cdot)\)表示注意力机制,\(f(\cdot)\)表示前馈处理。

针对\(A(\cdot)\),首先,将\(W_Q \in \mathbb{R}^{F \times D}\)\(W_K \in \mathbb{R}^{F \times D}\)\(W_V \in \mathbb{R}^{F \times M}\)作用于\(x\)投影得到对应的\(QKV\),此处的\(QK\)相乘是计算二者之间的相似性,并通过softmax得到相似性权重矩阵作用于\(V\)来修正比例,公式如下:

\[A(x)=V_i'=softmax(\frac{xW_Q(xW_K)^T}{\sqrt{D}})xW_V=softmax(\frac{QK^T}{\sqrt{D}})V \tag{2} \]

二、线性注意力机制

1.基础解释

根据\(QK\)计算相似性的特点,在不考虑因果性的前提下,广义上可表示为:

\[V_i' = \frac{\sum_{j=1}^{N} \operatorname{sim}(Q_i, K_j) V_j}{\sum_{j=1}^{N} \operatorname{sim}(Q_i, K_j)} \tag{3} \]

\(\operatorname{sim}(q, k)=\exp \left( \frac{q^T k}{\sqrt{D}} \right)\)时,公式(3)等价于公式(2)

softmax的一个特点是满足“输出非负”,因为需要的是一个相似性权重矩阵(像是通过打分来调整\(V\)中数据的分配比例)

因此通过某种非负相似度映射函数即可将\(QK\)拆分开,论文中采用的公式如下

\[\phi (x) = \text{elu}(x) + 1 \tag{4} \]

更新后的注意力公式如下(采用矩阵乘法交换律):

\[V_{i}^{\prime} = \frac{\sum_{j=1}^{N} \phi(Q_{i})^{T} \phi(K_{j}) V_{j}}{\sum_{j=1}^{N} \phi(Q_{i})^{T} \phi(K_{j})}=\frac{\phi(Q_i)^T \sum_{j=1}^N \phi(K_j) V_j^T}{\phi(Q_i)^T \sum_{j=1}^N \phi(K_j)} \tag{5} \]

公式(2)的时间复杂度为\(\mathcal{O}(N^2max(D,M))\),而优化后的公式(5),首先计算维度为\(C\)的特征映射,最终时间复杂度为\(\mathcal{O}(NCM)\)

2.因果掩码

在考虑因果性的情况下,公式(5)可化简为:

\[V_{i}^{\prime} = \frac{\phi(Q_{i})^{T} \sum_{j=1}^{i} \phi(K_{j}) V_{j}^{T}}{\phi(Q_{i})^{T} \sum_{j=1}^{i} \phi(K_{j})} \tag{6} \]

\(S_{i} = \sum_{j=1}^{i} \phi(K_{j}) V_{j}^{T}\)\(Z_{i} = \sum_{j=1}^{i} \phi(K_{j})\),进一步化简为:

\[V_{i}^{\prime} = \frac{\phi (Q_{i})^{T} S_{i}}{\phi (Q_{i})^{T} Z_{i}} \tag{7} \]

其中,\(S_{i} = S_{i-1} + \phi(K_{i}) V_{i}^{T}\)\(Z_{i} = Z_{i-1} + \phi(K_{i})\),由此可见其与传统RNN之间的相似之处,通过这种方式,能在\(S_{i-1}\)\(Z_{i-1}\)的基础上通过常数时间计算出\(S_{i}\)\(Z_{i}\)

3.梯度计算

在进行梯度计算时,要存储所有的中间值\(S_{i}\),这使得内存消耗增加为原来的\(max(D,M)\)倍,为此本文通过累积和的方式计算公式(6)给定分子\(\bar{V}_i\)和标量损失函数关于该分子的梯度 \(\nabla_{\bar{V}_i} \mathcal{L}\),以通过线性时间和恒定内存计算因果性序列的前向传播(做题)与反向传播(纠错),公式如下:

\[\nabla_{\phi(Q_i)} \mathcal{L} = \frac{\partial \mathcal{L}}{\partial \bar{V}_i} \cdot \frac{\partial \bar{V}_i}{\partial \phi(Q_i)} = \nabla_{\bar{V_i}} \mathcal{L} \left( \sum_{j=1}^i \phi(K_j) V_j^T \right)^T \tag{8} \]

同理:

\[\nabla_{\phi(K_i)} \mathcal{L} = \left( \sum_{j=i}^{N} \phi(Q_j) \left( \nabla_{\bar{v}_j} \mathcal{L} \right)^T \right) V_i \tag{9} \]

\[\nabla_{V_i} \mathcal{L} = \left( \sum_{j=i}^{N} \phi(Q_j) \left( \nabla_{V_j} \mathcal{L} \right)^T \right)^T \phi(K_i) \tag{10} \]

综上,其具有线性时间\(\mathcal{O}(NCM)\)和恒定内存\(\mathcal{O}(Nmax(C,M)\)

三、不足

\(S_{i}\)\(Z_{i}\)是无衰减的直接累加,所有信息平等叠加,早期的信息容易被后期噪声淹没,因此,需要通过门控、非线性增强、位置编码等方式来弥补此问题。后续的Mamba一定程度上也可以说是线性注意力的一种改进。

原论文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1194467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BthAvrcpAppSvc.dll文件丢失找不到 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

Maven依赖冲突终极解决方案(资深专家实战经验总结)

第一章:Maven依赖冲突终极解决方案概述 在Java项目开发中,Maven作为主流的构建工具,极大简化了依赖管理。然而,随着项目引入的第三方库日益增多,不同库之间可能引入相同依赖的不同版本,从而引发依赖冲突问题…

分享广州靠谱的隔膜气压罐供应商,推荐哪家?

随着建筑给排水、采暖空调系统对压力稳定需求的提升,隔膜气压罐作为核心稳压储能设备,其选型、采购与维护已成为工程方和企业关注的焦点。本文围绕隔膜气压罐厂商、靠谱的隔膜气压罐供应商、隔膜气压罐服务商家三大关…

6.1 拒绝裸奔:DevSecOps 核心理念与全链路安全架构设计

6.1 拒绝裸奔:DevSecOps 核心理念与全链路安全架构设计 1. 引言:安全是 1,其它是 0 稳定交付的前提是可信交付。没有安全,性能、功能、弹性都是"0"的右侧。 在传统 DevOps 流程中,安全往往是"最后一环":代码写好了,测试通过了,部署完成了,然后…

网页编辑器如何优化WordPress的PPT公式远程协作功能?

要求:开源,免费,技术支持 博客:WordPress 开发语言:PHP 数据库:MySQL 功能:导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏 平台:Window…

2026年分析太原外贸网站建设老牌定制公司,哪家排名靠前?

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为外贸企业选型提供客观依据,助力精准匹配适配的独立站智能营销服务伙伴。 TOP1 推荐:太原富库 推荐指数:★★★★★ | 口碑评分:山西外贸独立站…

AF488标记的Streptavidin,AF488-链霉亲和素:一种基于生物素系统的荧光检测工具

【试剂简介】英文名称:Streptavidin, AF488 conjugate,AF488 Streptavidin,AF488标记的Streptavidin,Alexa Fluor488 Streptavidin中文名称:AF488标记的链霉亲和素,链霉亲和素偶联AF488,链霉亲和…

WordPress插件市场有哪些支持Word公式智能识别的工具?

要求:开源,免费,技术支持 博客:WordPress 开发语言:PHP 数据库:MySQL 功能:导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏 平台:Window…

MyBatis-Plus遇上Spring Boot 3后究竟发生了什么?(深度解析底层集成原理)

第一章:Spring Boot 3 整合 MyBatis-Plus 的背景与挑战 随着 Spring Boot 3 的正式发布,其全面拥抱 Jakarta EE 9 规范、弃用 Java EE 命名空间(如 javax.* → jakarta.*),以及强制要求 JDK 17 运行环境,…

Face Fusion清空按钮失效?常见操作异常处理解决方案

Face Fusion清空按钮失效?常见操作异常处理解决方案 1. 问题背景与使用场景 你是不是也遇到过这种情况:在使用 Face Fusion WebUI 进行人脸融合时,点击「清空」按钮毫无反应,上传的图片、参数设置、结果预览全都卡在那里动不了&…

AF430标记的Streptavidin,链霉亲和素,AF430偶联物使用注意事项

英文名称:Streptavidin, AF555 conjugate,AF555 Streptavidin,AF555标记的Streptavidin,Alexa Fluor555 Streptavidin中文名称:AF555标记的链霉亲和素,链霉亲和素偶联AF555,链霉亲和素,AF555偶联…

线程池参数设置不当导致系统崩溃?这5个坑你必须避开

第一章:线程池参数设置不当导致系统崩溃?这5个坑你必须避开 在高并发系统中,线程池是提升性能的关键组件。然而,若核心参数配置不合理,极易引发资源耗尽、响应延迟甚至服务雪崩。以下是开发者在实际项目中常踩的五个典…

Java单例到底怎么写才真正安全?——从饿汉到双重检查锁,6种实现的JVM字节码级对比实测

第一章:Java单例模式的演进与核心挑战 Java单例模式作为最基础但又极易被误用的设计模式,其演进轨迹映射了JVM规范、内存模型与并发编程实践的深层变迁。从早期饿汉式到双重检查锁定(DCL),再到静态内部类与枚举实现&am…

6.2 镜像安全:从签名到漏洞扫描,打造可信软件供应链

6.2 镜像安全:从签名到漏洞扫描,打造可信软件供应链 1. 引言:镜像是生产的“载体” 将“可信”的定义写进镜像:可追溯(来源确定)、可验证(签名验签)、可评估(SBOM+扫描)。 2. SBOM:先列清单,再谈风控 2.1 生成 SBOM(Syft) syft packages harbor.example.com/…

详细介绍:javaEE:多线程,单列模式和生产者消费者模型

详细介绍:javaEE:多线程,单列模式和生产者消费者模型pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&qu…

AF594标记的Streptavidin,一种基于生物素-链霉亲和素体系的AF405荧光探针

【试剂简介】英文名称:Streptavidin, AF594 conjugate,AF594 Streptavidin,AF594标记的Streptavidin,Alexa Fluor594 Streptavidin中文名称:AF594标记的链霉亲和素,链霉亲和素偶联AF594,链霉亲和…

CORS配置避坑指南,90%开发者忽略的跨域安全细节大公开

第一章:Java解决跨域问题CORS配置 在现代Web开发中,前端与后端分离架构日益普及,跨域资源共享(CORS)成为必须面对的问题。当浏览器发起的请求目标与当前页面源不同时,会触发同源策略限制,导致请…

字符串判空的5种方式大比拼(哪种效率最高?)

第一章:Java判断字符串是否为空的最佳实践 在Java开发中,判断字符串是否为空是一个常见但关键的操作。不正确的处理方式可能导致空指针异常(NullPointerException),影响程序的稳定性。因此,采用安全且可读性…

线性注意力(Linear Attention,LA)学习

定义:采用矩阵乘法结合律的特点,所设计的一种\(\mathcal{O}(n)\)时间复杂度的注意力机制 一、softmax注意力机制 设输入特征\(x\)大小为\(NF\),其是由\(N\)个维度为\(F\)的特征向量构成的序列(往往\(N\gg F\)) Tr…

Parquet 入门详解:深入浅出全解析

https://blog.csdn.net/qq_28369007/article/details/148840528 Parquet 入门详解:深入浅出全解析