(论文)Local Attention

news/2025/10/31 15:51:52/文章来源:https://www.cnblogs.com/orange0005/p/19180249

(论文)Local Attention

局部注意力方法 (Local attention,LA)

摘要:

主要研究了一些局部注意力的工作。

对于NLP,LA能够更好的外推;对于CV,能够更加高效。

作用不同,主要也是因为两者的关注目标,实现方法不同。(没有讨论多头,因为那是对最后一个维度,通道维度的操作,现在关注对注意力矩阵的操作)。


1. Full Self-Attention (SA)

对于输入 \(X \in \mathbb{R}^{n\times d}\),首先经过线性变化提取 \(K,Q,V\)

\[K = X W_k \in \mathbb{R}^{n\times d_k}, \\ Q = X W_q \in \mathbb{R}^{n\times d_k}, \\ V = X W_v \in \mathbb{R}^{n\times d_v}, \]

其中,\(n\) 表示 embedding 个数。全注意力为:

\[score = softmax(\frac{QK^{\top}}{\sqrt{d}}), \\ Attention(Q,K,V) = score * V. \]

此时,每次 query points 都可以访问到全部输入。

2. Mask Self-Attention

2.1 Causal attention

上述的注意力也可以被看作是全的双向注意力,因为每一个输入仅能访问前面的信息,也能访问后面的信息。

然而,在语言任务中(next token predictions),文本生成更需要符合因果关系:即后面生成的token,仅能看到前面的tokens,不应该看到后面未生成的tokens的信息。因此,需要对注意力矩阵添加一个 mask 矩阵 \(\mathcal{M}\)

\[score = softmax(\frac{QK^{\top} + \mathcal{M}}{\sqrt{d}}), \]

这里 \(\mathcal{M}\) 是一个对角线及以下为0,以上为极大负数的矩阵。经过 \(softmax\) 之后,每个tokens 后面的注意力分数为0。\(\mathcal{M}\) 如下图的例子所示所示:

\[\left[\begin{array}{c} 0 & -inf & -inf \\ 0 & 0 & -inf \\ 0 & 0 & 0 \\\end{array}\right] \]

2.2 AliBi [1]

\(\mathcal{M}\) 替换成带状:

\[\left[\begin{array}{c} 0 & 0 & 0 & -inf & -inf & -inf\\ 0 & 0 & 0 & 0 & -inf & -inf \\ 0 & 0 & 0 & 0 & 0 & -inf \\ -inf & 0 & 0 & 0 & 0 & 0 \\ -inf & -inf & 0 & 0 & 0 & 0 \\ -inf & -inf & -inf & 0 & 0 & 0 \\\end{array}\right] \]

用于提升模型的外推能力。

3. Local attention

以上两类工作尽管也是利用了局部的信息(也可以看作一种local的注意力),但这不可以直接迁移到 image 中。在 CV 中,local注意力发展是为了提升效率。

3.1 Sparse global attention

对于所有的 query,随机采样得到 K 和 V的一个子集,在子集上计算注意力。

3.2 Window attention

以 swin transformer 为代表,将自注意力限制到一个局部区域;通过窗口移动来实现窗口外的交互。(实际上是特征偏移实现的。)

image-20251028111401739

3.3 Local attention

将注意力完全限制到一个局部区域。邻居间的交互通过间接方式实现,因为是不重叠的划分。

但是会出现两个问题:

  1. 需要使用 Im2Col,计算慢。
  2. 构建新的cuda支持。

== 特别的,CV中local attention是在 local 中,每次只关注local中的一个tokens,所以需要将qv切片成 \(k^2\) 个(如下图),才能照顾到local中的所有点。这一步骤需要 Im2Col,会很慢。

image-20251028112451315
3.3.1 Slide-transformer

这篇文章使用深度水平的卷积替代了Im2Col,还加入了一个可学习核增加表示力,无需手写cuda。

image-20251028112838596
3.3.2 Neighborhood attention transformer

手写cuda,实现 query 仅仅与local范围内 K 、V 交互。

image-20251028113011074

参考文献

  1. Ofir Press, Noah A. Smith, Mike Lewis. Train short, test long: Attention with linear biases enables input length extrapolation. ICLR, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/951905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

于鸿硕面向对象设计大作业02

面向对象设计大作业02 网安2411 于鸿硕 202421336018 一、改造思路 1.MVC模式 MVC模式 即Model-View-Controller(模型-视图-控制器)模式,通过分三种实现模块进行;对于本项目,设计MVC模式如下 graph TD M[Model]--…

2025年10月小学生学习机品牌评测:五强榜单性能与口碑全解析

开学季刚过,不少家长发现孩子在家预习、复习时容易走神,校内同步练习又缺互动,于是把“买一台适合小学生的学习机”提上日程。教育部《2024年全国中小学生视力情况专项报告》显示,小学生每天课外电子学习时长已升至…

2025 年 PCB 打板做板,PCBHDI 高密度互连板,PCB 电路板线路板厂家最新推荐,技术实力与市场口碑深度解析

引言 2025 年电子产业持续升级,PCB 作为核心载体,其品质与性能对下游产品至关重要。为精准筛选优质 PCB 厂家,某某电子产业协会联合专业测评机构开展权威测评,涵盖全国 120 余家 PCB 企业。测评从技术实力(工艺精…

【IEEE出版 | 连续六届稳定EI检索 | 往届快至会后3.5个月检索!】第七届电子工程与信息学国际学术会议(EEI 2025)

第七届电子工程与信息学国际学术会议(EEI 2025)将于2025年11月7日至11月9日在中国扬州隆重召开。【扬州大学主办,高品质会议,会议级别高】 【连续六届稳定EI检索, 往届快至会后3.5个月检索】 第七届电子工程与信息…

2025年10月小学生学习机品牌榜单:销量数据与功能对比全解析

孩子升入小学后,课本难度陡增、作业量加大,家长普遍面临“辅导时间不够、讲解方式不对、孩子坐不住”的三重焦虑。教育部《2024全国义务教育质量监测报告》显示,小学低年级学生每日课外学习时长已较三年前增加28分钟…

四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景

四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");2025年企业IT运维面临…

【ACM出版 | ACM出版社目前快至见刊后1个月EI、Scopus检索】2025年数字化社会与智能计算国际学术会议 (ICDSIC 2025)

2025年数字化社会与智能计算国际学术会议(ICDSIC 2025)将于2025年11月21日至23日在中国广州举行。【本次ICDSIC2025已通过ACM申请,ISBN:979-8-4007-1964-6】 【ACM出版社目前快至见刊后1个月EI、Scopus检索】 2025…

(论文阅读)ENMA: Tokenwise Autoregression for Generative Neural PDE Operators

(论文阅读)ENMA: Tokenwise Autoregression for Generative Neural PDE Operators1. 论文 摘要: 对于时变 PDE,在隐空间中自回归的生成未来时刻的 tokens。特别的,下一时刻的特征使用掩码自回归的范式,按批次生成…

2025年圆形摇摆筛厂家最新推荐:新乡亚德,新型高效圆形摇摆筛/精细圆形筛摇摆筛/仿人工圆形摇摆筛/复式圆形摇摆筛/抽拉式圆形摇摆筛,覆盖多场景,服务有保障

随着制造业智能化转型加速、环保政策日趋严格,以及下游矿山、建材、化工等行业对物料分级精度的要求提升,筛分设备市场正迎来结构性升级。数据显示,2024 年中国振动筛分设备市场规模已达 52.56 亿元,预计 2025 年将…

2025济南单招综评培训/班/机构推荐榜:济南易升教育五星领跑!山东本地化定制+高通过率,3企凭特色突围​

随着 2025 年单招综评(单独招生 + 综合评价)成为中职、高中生升学重要途径,考生对培训的需求从 “基础知识点覆盖” 转向 “山东院校政策适配、面试实操强化、志愿精准匹配”。综合本地化服务能力、院校合作资源、学…

2025年斗山焕新升级全解析:技术突破与市场领先深度揭秘

引言 本文从“排放标准领先优势”这一核心维度切入,结合公开数据与第三方权威报告,为潜在购机者提供一份可量化、可验证、可落地的客观参考。 背景与概况 “挖掘机品牌迪万伦(DEVELON),前身是韩国斗山(DOOSAN)品牌…

2025年方形摇摆筛厂家推荐榜:复式方形摇摆筛/抽拉式方形摇摆筛/双层方形摇摆筛/新型高效方形摇摆筛/多层分离方形摇摆筛/专注高效筛分,亚德智能装备以专业实力赢得口碑

随着各行业对产品质量、生产效率和洁净环保要求的不断提高,精细筛分已成为塑料、化工、食品、医药、冶金等领域不可或缺的环节。方形摇摆筛因其高精度、高产量、低维护等优势,市场需求持续扩大,预计2025年将迎来更广…

CALM-PDE:Continuous and Adaptive Convolutions for Latent Space Modeling of Time-dependent PDEs

CALM-PDE:Continuous and Adaptive Convolutions for Latent Space Modeling of Time-dependent PDEs1. 论文 摘要: 本文从压缩角度叙事。 引入了连续的自适应卷积,用于将偏微分方程数据从高分辨率的物理空间压缩到…

2025 年江苏叠螺机,叠螺机维修,食品厂污泥脱水叠螺机,畜牧养殖污泥处理叠螺机厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读

引言 随着国家环保政策持续收紧,江苏地区污水处理需求激增,叠螺机作为污泥脱水核心设备,其市场关注度与日俱增。为帮助企业精准筛选优质厂家,本次推荐榜单依托国内权威环保设备协会测评数据,从资质认证、实际合作…

2025年10月轮式挖掘机品牌评测:迪万伦榜单排名与选购指南

市政抢修队凌晨接到燃气泄漏任务,却苦于履带挖掘机无法直接上路;管线公司要在市中心狭窄路段连续切换破碎、抓木、钻孔三种工况,却担心轮胎压坏刚铺好的沥青;个体老板想接零散的乡村道路维护,却算不清拖车费用与转…

【IEEE出版 | 高录用EI会议 | 快至会后3-4个月EI检索】第五届电力系统与能源互联网国际学术会议(PoSEI 2025)

第五届电力系统与能源互联网国际学术会议(PoSEI 2025)将于2025年11月7日-9日在中国常德召开。【高录用EI会议-快至会后3-4个月EI检索】 【往届均已完成出版及EI检索!】 第五届电力系统与能源互联网国际学术会议(Po…

2025 年 防水洗墙灯,桥梁洗墙灯,防尘洗墙灯,酒店洗墙灯厂家最新推荐,实力品牌深度解析采购无忧之选!

引言 2025 年户外照明行业持续发展,防水、桥梁、防尘、酒店类洗墙灯需求激增,为帮助采购者精准筛选优质厂家,行业权威协会开展专项测评。测评从技术实力、产品性能、市场口碑、服务体系四大维度入手,对近百家洗墙灯…

2025年斗山全系列技术突破与市场领先优势深度解析

引言 本文聚焦“技术突破与市场领先优势”这一核心维度,对斗山焕新升级后的DEVELON(迪万伦)品牌进行系统拆解,为潜在购机用户提供一份可量化、可验证、可落地的客观参考。 背景与概况 挖掘机品牌迪万伦(DEVELON)…

2025 年尼丝纺里布,胆布里布,高弹里布,四面弹里布厂家最新推荐,技术实力与市场口碑深度解析

引言 尼丝纺里布、胆布里布、高弹里布、四面弹里布作为纺织领域常用且关键的面料类型,广泛应用于服装、箱包、户外用品等行业,其品质与供应稳定性直接关乎下游企业产品竞争力。为精准筛选优质厂家,纺织面料行业协会…

2025年10月小型挖掘机售后满意度榜:五品牌服务评价排行

“机器一响,黄金万两;机器一停,成本飙升。”对于市政养护、农村自建、大棚挖沟、果园施肥这类“小工程、高频次”场景,用户买小型挖掘机时最怕的不是价格,而是“坏了没人管”。2025年,全国小型挖掘机保有量已突破…