Sink Token

论文:ICLR 2025 MLLM视觉VAR方法Attention重分配

Sink Token 是一种在语言模型(LLM)和多模态模型(MLLM)中用于优化注意力分配的关键机制,通过吸收模型中冗余的注意力权重,确保注意力资源不被无效或无关信息占用。以下是对这一概念的系统性解析:

  • 比喻:想象你有一个"注意力垃圾桶",模型会把不重要的信息扔进去,避免干扰关键任务。
  • 定义:Sink Token 是模型中某些特殊标记(如文本中的标点、图像中的背景区域),它们会吸收大量注意力权重,但本身对输出贡献很小。

1. 语言模型中的 Sink Token

定义与本质

Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符),其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重,但对模型最终输出的实质性贡献极低。

关键功能

  • 注意力重分配机制:通过将冗余注意力"汇聚"到这些特殊标记,防止无关信息干扰模型对核心内容的处理
  • 长序列稳定性增强:在生成长文本时,Sink Token能有效稳定注意力分布,提高生成质量
  • 内存效率优化:在StreamingLLM等流式处理架构中,Sink Token使模型能以恒定内存复杂度处理理论上无限长的序列

工作原理示例

当模型处理长文本时,标准Transformer架构会随着序列长度增加而导致注意力"稀释",而Sink Token通过吸收部分注意力,使模型能够将剩余注意力更精确地分配给真正重要的标记。

2. 多模态模型中的视觉 Sink Token

特征与表现

在多模态模型(如LLaVA)中,视觉Sink Token指图像中那些与任务无关但错误地获得高注意力权重的区域。这些区域的隐藏状态同样在Dsink维度上具有异常高的激活值,这一特性是从基础语言模型中继承而来。

独特性质

  • 注意力消耗与低贡献并存:尽管吸收大量注意力资源,这些视觉区域对答案生成几乎没有帮助(多项消融实验证实)
  • 位置特征:视觉Sink Token常集中在图像背景或低信息密度区域
  • 可识别性:通过分析注意力热图和Dsink维度激活模式可有效识别

优化方法:视觉注意力重分配(VAR)

研究提出了VAR方法,通过:

  1. 识别视觉Sink Token区域
  2. 动态抑制这些区域的注意力权重
  3. 将"节省"的注意力预算重新分配给语义相关的视觉区域

3. Sink Token在不同模态中的对比

特性语言模型Sink Token多模态模型视觉Sink Token
形成机制预定义标记或模型学习的占位符图像中信息稀疏但获得过高关注的区域
识别方法Dsink维度激活值分析同左,但结合视觉注意力热图
优化目的稳定长序列处理,降低注意力稀释提升跨模态对齐精度,减少视觉噪声干扰
在语言模型中的表现
  • 例子:在生成文本时,模型会过度关注 BOS(开始标记)或标点符号(如逗号),即使这些标记本身无意义。
  • 原因:这些标记的隐藏状态在特定维度(Sink Dimensions)上激活值异常高,导致注意力被"吸"过去。
在多模态模型中的表现
  • 例子:模型处理图像时,可能会持续关注背景的草地或天空(与问题无关的区域),即使问题问的是"图片里有没有狗"。
  • 关键发现:这些视觉 Sink Token 的隐藏状态在 Sink Dimensions 上激活值很高,类似语言模型中的现象。

4.什么是 Sink Dimensions?

  • 比喻:模型的隐藏状态是一个高维空间,Sink Dimensions 是其中某些"特殊坐标",这些坐标容易被 Sink Token 占据。
  • 定义:Sink Dimensions 是隐藏状态中一组特定维度(如 LLaMA-2 的 Dsink={1415, 2533}),Sink Token 在这些维度上的激活值异常高。

如何识别 Sink Dimensions?

  • 步骤
  1. 计算激活值:对每个标记的隐藏状态,计算其在 Sink Dimensions 上的激活值。
  2. 归一化:用均方根(RMS)归一化,避免数值过大。
  3. 阈值判定:若某标记的 Sink Dimension Value > 阈值(如 T=20),则标记为 Sink Token。

通过归一化隐藏状态在 Sink Dimensions 上的激活值(Sink Dimension Value),若超过阈值(如 T=20),则标记为 Sink Token。

公式:

Sink Dimension Value = max ⁡ d ∈ D sink x [ d ] 1 D ∑ d = 1 D x [ d ] 2 \text{Sink Dimension Value} = \frac{\max_{d \in D_{\text{sink}}} x[d]}{\sqrt{\frac{1}{D}\sum_{d=1}^{D}x[d]^2}} Sink Dimension Value=D1d=1Dx[d]2 maxdDsinkx[d]

其中 x x x 为隐藏状态, D D D 为总维度数。

可视化验证:

通过注意力图可视化发现,Sink Token 的注意力权重分布与关键视觉区域分离,且其隐藏状态在 Sink Dimensions 上显著突出

实验验证
  • 屏蔽实验:如果删除 Sink Token,模型性能几乎不变(如 LLaVA 屏蔽后准确率仅下降 0.1%)。
  • 注意力图可视化:Sink Token 的注意力权重集中在图像背景,而非关键物体(如图6中的"logo"未被正确关注)。

VAR 方法(视觉注意力重分配)

核心思想
  • 问题:模型将过多注意力浪费在 Sink Token(如背景区域),而关键视觉信息(如目标物体)未被充分关注。
  • 解决方案:从 Sink Token 中"回收"注意力预算,重新分配给重要区域。
具体步骤
  1. 识别 Sink Token
  • 通过 Sink Dimensions 筛选出高激活值的视觉标记(如背景区域)。
  • 示例:若某图像区域的隐藏状态在 Dsink={1415, 2533} 上激活值 >20,则标记为 Sink Token。
  1. 选择以图像为中心的注意力头
  • 筛选标准
    • 舍弃对视觉标记总注意力权重 <0.2 的头(这些头不关注图像)。
    • 选择"视觉非汇比率"(rh)>0.6 的头(rh = 非 Sink Token 的注意力权重占比)。
  • 作用:这些头更关注与文本相关的视觉区域(如图4中"滑板"问题对应的注意力头)。
  1. 重分配注意力权重
  • 提取预算:从 Sink Token 的注意力权重中提取比例 p(如 p=0.6)作为预算 Ω。
  • 重新分配:将 Ω 按原始注意力权重比例分配给非 Sink Token。
  • 公式
    a i , j 新 = a i , j + Ω ⋅ a i , j ∑ k ∈ 非汇标记 a i , k a_{i,j}^\text{新} = a_{i,j} + \Omega \cdot \frac{a_{i,j}}{\sum_{k \in \text{非汇标记}} a_{i,k}} ai,j=ai,j+Ωk非汇标记ai,kai,j
  • 效果:关键区域的注意力权重增强,背景区域的权重降低。

总结

  • Sink Token 是模型中吸收冗余注意力的标记,Sink Dimensions 是它们的"藏身维度"。
  • VAR 方法 通过"回收-重分配"机制,让模型更关注关键视觉信息,无需训练即可提升性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Event 观察者模型及事件和消息队列之间的区别笔记

Spring Event观察者模型&#xff1a;基于内置事件实现自定义监听 在Spring框架中&#xff0c;观察者模式通过事件驱动模型实现&#xff0c;允许组件间通过事件发布与监听进行解耦通信。这一机制的核心在于ApplicationEvent、ApplicationListener和ApplicationEventPublisher等接…

【复活吧,我的爱机!】Ideapad300-15isk拆机升级:加内存条 + 换固态硬盘 + 换电源

写在前面&#xff1a;本博客仅作记录学习之用&#xff0c;部分图片来自网络&#xff0c;如需引用请注明出处&#xff0c;同时如有侵犯您的权益&#xff0c;请联系删除&#xff01; 文章目录 前言升级成本升级流程电池健康度加内存条和换内存条光驱位加装机械硬盘更换电池重装系…

基于PyQt5的自动化任务管理软件:高效、智能的任务调度与执行管理

基于PyQt5的自动化任务管理软件&#xff1a;高效、智能的任务调度与执行管理 相关资源文件已经打包成EXE文件&#xff0c;可双击直接运行程序&#xff0c;且文章末尾已附上相关源码&#xff0c;以供大家学习交流&#xff0c;博主主页还有更多Python相关程序案例&#xff0c;秉着…

JavaScript 库:全面解析与推荐

JavaScript 库:全面解析与推荐 引言 JavaScript 作为当今最流行的前端开发语言之一,拥有丰富的库和框架。这些库和框架极大地简化了开发工作,提高了开发效率。本文将全面解析 JavaScript 库,并推荐一些优秀的库,帮助开发者更好地掌握 JavaScript。 JavaScript 库概述 …

C#从入门到精通(5)

目录 第十二章 其他基础知识 &#xff08;1&#xff09;抽象类和方法 &#xff08;2&#xff09;接口 &#xff08;3&#xff09;集合与索引器 &#xff08;4&#xff09;委托和匿名方法 &#xff08;5&#xff09;事件 &#xff08;6&#xff09;迭代器 &#xff08;7…

【区块链安全 | 第十四篇】类型之值类型(一)

文章目录 值类型布尔值整数运算符取模运算指数运算 定点数地址&#xff08;Address&#xff09;类型转换地址成员balance 和 transfersendcall&#xff0c;delegatecall 和 staticcallcode 和 codehash 合约类型&#xff08;Contract Types&#xff09;固定大小字节数组&#x…

Windows 系统下多功能免费 PDF 编辑工具详解

IceCream PDF Editor是一款极为实用且操作简便的PDF文件编辑工具&#xff0c;它完美适配Windows操作系统。其用户界面设计得十分直观&#xff0c;哪怕是初次接触的用户也能快速上手。更为重要的是&#xff0c;该软件具备丰富多样的强大功能&#xff0c;能全方位满足各类PDF编辑…

vue3相比于vue2的提升

性能提升&#xff1a; Vue3的页面渲染速度更快、性能更好。特别是在处理大量数据和复杂组件时&#xff0c;优势更加明显。Vue3引入了编译时优化&#xff0c;如静态节点提升&#xff08;hoistStatic&#xff09;、补丁标志&#xff08;patchflag&#xff09;等&#xff0c;这些…

Redis 梳理汇总目录

Redis 哨兵集群&#xff08;Sentinel&#xff09;与 Cluster 集群对比-CSDN博客 如何快速将大规模数据保存到Redis集群-CSDN博客 Redis的一些高级指令-CSDN博客 Redis 篇-CSDN博客

【奇点时刻】GPT-4o新生图特性深度洞察报告

以下报告围绕最新推出的「GPT4o」最新图像生成技术展开&#xff0c;旨在让读者从整体层面快速了解其技术原理、功能亮点&#xff0c;以及与其他常见图像生成或AI工具的对比分析&#xff0c;同时也会客观探讨该技术在应用过程中可能遇到的挑战与限制。 1. 技术背景概述 GPT4o新…

【算法day28】解数独——编写一个程序,通过填充空格来解决数独问题

37. 解数独 编写一个程序&#xff0c;通过填充空格来解决数独问题。 数独的解法需 遵循如下规则&#xff1a; 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08;请参考示例图&#xff…

【已解决】Javascript setMonth跨月问题;2025-03-31 setMonth后变成 2025-05-01

文章目录 bug重现解决方法&#xff1a;用第三方插件来实现&#xff08;不推荐原生代码来实现&#xff09;。项目中用的有dayjs。若要自己实现&#xff0c;参考 AI给出方案&#xff1a; bug重现 今天&#xff08;2025-04-01&#xff09;遇到的一个问题。原代码逻辑大概是这样的…

力扣刷题-热题100题-第29题(c++、python)

19. 删除链表的倒数第 N 个结点 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/remove-nth-node-from-end-of-list/description/?envTypestudy-plan-v2&envIdtop-100-liked 计算链表长度 对于链表&#xff0c;难的就是不知道有多少元素&#xff…

【QT】QT的多界面跳转以及界面之间传递参数

QT的多界面跳转以及界面之间传递参数 一、在QT工程中添加新的界面二、多界面跳转的两种情况1、A界面跳到B界面&#xff0c;不需要返回2、A界面跳到B界面&#xff0c;需要返回1&#xff09;使用this指针传递将当前界面地址传递给下一界面2&#xff09;使用parentWidget函数获取上…

【力扣hot100题】(022)反转链表

非常经典&#xff0c;我写的比较复杂&#xff0c;一直以来的思路都是这样&#xff0c;就没有去找更简单的解法&#xff1a;&#xff08;做链表题习惯加头结点的前置节点了&#xff0c;去掉也行&#xff09; /*** Definition for singly-linked list.* struct ListNode {* …

剑指Offer(数据结构与算法面试题精讲)C++版——day2

剑指Offer(数据结构与算法面试题精讲)C++版——day2 题目一:只出现一次的数据题目二:单词长度的最大乘积题目三:排序数组中的两个数字之和题目一:只出现一次的数据 一种很简单的思路是,使用数组存储出现过的元素,比如如果0出现过,那么arr[0]=1,但是有个问题,题目中没…

【C++游戏引擎开发】《线性代数》(3):矩阵乘法的SIMD优化与转置加速

一、矩阵乘法数学原理与性能瓶颈 1.1 数学原理 矩阵乘法定义为:给定两个矩阵 A ( m n ) \mathrm{A}(mn) A(mn)和 B ( n p ) \mathrm{B}(np) B(np),它们的乘积 C = A B \mathrm{C}=AB C=AB 是一个 m p \mathrm{m}p mp 的矩阵,其中: C i , j = ∑ k = 1…

Vue Transition组件类名+TailwindCSS

#本文教学结合TailwindCSS实现一个Transition动画的例子# 举例代码&#xff1a; <transition enter-active-class"transition-all duration-300 ease-out"enter-from-class"opacity-0 translate-y-[-10px]"enter-to-class"opacity-100 translate-…

技术回顾day2

1.获取文件列表 流程&#xff1a;前端根据查询条件封装查询信息&#xff0c;后端接收后进行封装&#xff0c;封装为FileInfoQuery,根据fileInfoQuery使用mybatis的动态sql来进行查询。 2.文件分片上传 每次上传需要上传包括(文件名字&#xff0c;文件&#xff0c;md5值&#…

DeepSeek-R1 模型现已在亚马逊云科技上提供

2025年3月10日更新—DeepSeek-R1现已作为完全托管的无服务器模型在Amazon Bedrock上提供。 2025年2月5日更新—DeepSeek-R1 Distill Llama 和 Qwen模型现已在Amazon Bedrock Marketplace和Amazon SageMaker JumpStart中提供。 在最近的Amazon re:Invent大会上&#xff0c;亚马…