三亚学做网站培训哪个网站有做商标

pingmian/2026/1/22 16:00:41/文章来源:
三亚学做网站培训,哪个网站有做商标,安阳做网站的费用,文明网站建设工作进度表在文章《从熵不变性看Attention的Scale操作》中#xff0c;我们就从“集中注意力”的角度考察过Attention机制#xff0c;当时我们以信息熵作为“集中程度”的度量#xff0c;熵越低#xff0c;表明Attention越有可能集中在某个token上。 但是#xff0c;对于一般的Attent… 在文章《从熵不变性看Attention的Scale操作》中我们就从“集中注意力”的角度考察过Attention机制当时我们以信息熵作为“集中程度”的度量熵越低表明Attention越有可能集中在某个token上。 但是对于一般的Attention机制来说Attention矩阵可能是非归一化的比如《FLASH可能是近来最有意思的高效Transformer设计》介绍的GAU模块以及《相对位置编码Transformer的一个理论缺陷与对策》所引入的l2归一化Attention甚至从更一般的Non-Local Neural Networks角度来看Attention矩阵还未必是非负的。这些非归一化的乃至非负的Attention矩阵自然就不适用于信息熵了因为信息熵是针对概率分布的。 为此我们考虑在《如何度量数据的稀疏程度》介绍的l1/l2形式的稀疏程度指标 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 该指标跟信息熵相似S(x)越小意味着对应的随机向量越稀疏越稀疏意味着越有可能“一家独大”这对应于概率中的one hot分布跟信息熵不同的是它适用于一般的随机变量或者向量。 稀疏程度指标 S(x) 是用来衡量一个随机变量或随机向量中非零元素的重要性和数量。这个指标与信息熵有关联但它的侧重点在于度量数据的稀疏程度即数据中非零元素的平均能量与整个数据的平均能量之比。 在 l1/l2 形式中S(x) 被定义为 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 其中 E 表示期望值。S(x) 的值越小意味着数据 x 的稀疏程度越高。具体来说 E [ ∣ x ∣ ] E[|x|] E[∣x∣] 测量的是 x 的绝对值的期望值这可以理解为数据中非零元素的平均绝对值。 E [ x 2 ] \sqrt{E[x^2]} E[x2] ​ 测量的是 x 的平方的期望值的平方根这可以理解为数据中所有元素包括零和非零的平均能量。 因此S(x) 能够反映数据中非零元素相对于整个数据的重要性。如果 S(x) 接近于 0这通常意味着数据非常稀疏大部分元素都是零只有少数非零元素对整体能量有显著贡献。这种情况下数据可能近似于 one-hot 分布即大部分元素为零只有一个元素为非零。 需要注意的是虽然 S(x) 可以用来衡量稀疏程度但它并不直接度量信息熵。信息熵通常用于度量一个随机变量的不确定性或信息含量而 S(x) 更侧重于度量数据中非零元素的重要性和数量。 简化形式 # 对于注意力机制我们记 a ( a 1 , a 2 , ⋯ , a n ) a(a1,a2,⋯,an) a(a1,a2,⋯,an)其中 a j ∝ f ( q ⋅ k j ) aj∝f(q⋅kj) aj∝f(q⋅kj)那么 S ( a ) E k [ ∣ f ( q ⋅ k ) ∣ ] E k [ f 2 ( q ⋅ k ) ] − − − − − − − − − − √ ( 2 ) S(a)Ek[|f(q⋅k)|]Ek[f2(q⋅k)]−−−−−−−−−−√(2) S(a)Ek[∣f(q⋅k)∣]Ek[f2(q⋅k)]−−−−−−−−−−√(2) 接下来都考虑 n → ∞ n→∞ n→∞的极限。假设 k ∼ N ( μ , σ 2 I ) k∼N(μ,σ2I) k∼N(μ,σ2I)那么可以设 k μ σ ε kμσε kμσε其中 ε ∼ N ( 0 , I ) ε∼N(0,I) ε∼N(0,I)于是 S ( a ) E ε [ ∣ f ( q ⋅ μ σ q ⋅ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ q ⋅ ε ) ] − − − − − − − − − − − − − − − − − √ ( 3 ) S(a)Eε[|f(q⋅μσq⋅ε)|]Eε[f2(q⋅μσq⋅ε)]−−−−−−−−−−−−−−−−−√(3) S(a)Eε[∣f(q⋅μσq⋅ε)∣]Eε[f2(q⋅μσq⋅ε)]−−−−−−−−−−−−−−−−−√(3) 注意ε所服从的分布 N ( 0 , I ) N(0,I) N(0,I)是一个各向同性的分布与《n维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q ⋅ ε q⋅ε q⋅ε相关的数学期望只与 q q q的模长有关跟它的方向无关于是我们可以将 q q q简化为(∥q∥,0,0,⋯,0)那么对ε的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ∥ q ∥ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ∥ q ∥ ε ) ] − − − − − − − − − − − − − − − − − √ ( 4 ) S(a)Eε[|f(q⋅μσ∥q∥ε)|]Eε[f2(q⋅μσ∥q∥ε)]−−−−−−−−−−−−−−−−−√(4) S(a)Eε[∣f(q⋅μσ∥q∥ε)∣]Eε[f2(q⋅μσ∥q∥ε)]−−−−−−−−−−−−−−−−−√(4) 其中ε∼N(0,1)是一个随机标量。 您所描述的简化形式是针对注意力机制中的某个指标 S ( a ) S(a) S(a)。首先我们记 a ( a 1 , a 2 , ⋯ , a n ) a(a1,a2,⋯,an) a(a1,a2,⋯,an)其中 a j ∝ f ( q ⋅ k j ) aj∝f(q⋅kj) aj∝f(q⋅kj)。然后我们考虑 n → ∞ n→∞ n→∞的极限。为了简化计算假设 k ∼ N ( μ , σ 2 I ) k∼N(μ,σ2I) k∼N(μ,σ2I)那么可以设 k μ σ ε kμσε kμσε其中 ε ∼ N ( 0 , I ) ε∼N(0,I) ε∼N(0,I)。 接下来我们利用各向同性的性质来简化计算。由于 ε ε ε 所服从的分布 N ( 0 , I ) N(0,I) N(0,I)是一个各向同性的分布与《n 维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q ⋅ ε q⋅ε q⋅ε 相关的数学期望只与 q q q 的模长有关跟它的方向无关。于是我们可以将 q q q 简化为 ( ‖ q ‖ , 0 , 0 , ⋯ , 0 ) (‖q‖,0,0,⋯,0) (‖q‖,0,0,⋯,0)那么对 ε ε ε 的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ‖ q ‖ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ‖ q ‖ ε ) ] S(a) Eε[|f(q⋅μσ‖q‖ε)|]Eε[f^2(q⋅μσ‖q‖ε)] S(a)Eε[∣f(q⋅μσ‖q‖ε)∣]Eε[f2(q⋅μσ‖q‖ε)] 其中 ε ∼ N ( 0 , 1 ) ε∼N(0,1) ε∼N(0,1) 是一个随机标量。这样我们就成功地将原本复杂的计算简化为了更易于处理的随机标量计算。 这里是引用现在可以对常见的一些f进行计算对比了。目前最常用的Attention机制是 f e x p fexp fexp此时求期望只是常规的一维高斯积分容易算得 S ( a ) e x p ( − 12 σ 2 ∥ q ∥ 2 ) ( 5 ) S(a)exp(−12σ2∥q∥2)(5) S(a)exp(−12σ2∥q∥2)(5) 当 σ → ∞ σ→∞ σ→∞或 ∥ q ∥ → ∞ ∥q∥→∞ ∥q∥→∞时都有 S ( a ) → 0 S(a)→0 S(a)→0也就是理论上标准Attention确实可以任意稀疏地“集中注意力”同时这也告诉了我们让注意力更集中的方法增大q的模长或者增大各个k之间的方差换言之拉开k的差距。 另一个例子是笔者喜欢的GAUGated Attention Unit它在开始提出的时候是 f r e l u 2 frelu2 frelu2不过笔者后来自己用的时候复原为Softmax了参考《FLASH可能是近来最有意思的高效Transformer设计》和《听说Attention与Softmax更配哦》此时积分没有 f e x p fexp fexp那么简单不过也可以直接用Mathematica硬算结果是 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ ( 6 ) S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√(6) S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√(6) 其中 β q ⋅ μ , γ σ ∥ q ∥ βq⋅μ,γσ∥q∥ βq⋅μ,γσ∥q∥。式子很恐怖但是无所谓画图即可 relu2注意力的稀疏程度曲线图 relu2注意力的稀疏程度曲线图 可以看到只有 β 0 β0 β0时原版GAU的稀疏度才有机会趋于0。这也很直观当偏置项小于0时才有更多的机会让relu的结果为0从而实现稀疏。这个结果也说明了跟fexp的标准注意力不同k的bias项可能会对 f r e l u 2 frelu2 frelu2的GAU有正面帮助。 您举了两个例子分别是常见的高斯注意力Gaussian Attention和笔者喜欢的 GAUGated Attention Unit。通过对这两种注意力机制的稀疏程度进行分析我们可以更深入地了解它们的特点。 高斯注意力对于高斯注意力我们使用 f e x p fexp fexp。这种情况下求期望只是常规的一维高斯积分。根据您给出的公式5我们可以得到 S ( a ) e x p ( − 12 σ 2 ∥ q ∥ 2 ) S(a)exp(−12σ2∥q∥2) S(a)exp(−12σ2∥q∥2)。当 σ → ∞ σ→∞ σ→∞ 或 ∥ q ∥ → ∞ ∥q∥→∞ ∥q∥→∞ 时都有 S ( a ) → 0 S(a)→0 S(a)→0。这意味着理论上标准注意力确实可以任意稀疏地“集中注意力”。同时这个结果也告诉了我们让注意力更集中的方法增大 q q q 的模长或者增大各个 k k k 之间的方差换言之拉开 k k k 的差距。GAUGated Attention Unit对于 GAU您提到开始提出的时候是 f r e l u 2 frelu2 frelu2。这种情况下积分没有 f e x p fexp fexp 那么简单。根据您给出的公式6我们可以得到 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√。从公式中可以看出只有 β 0 β0 β0 时原版 GAU 的稀疏度才有机会趋于 0。这也说明了跟 f e x p fexp fexp 的标准注意力不同k 的 bias 项可能会对 f r e l u 2 frelu2 frelu2 的 GAU 有正面帮助。 通过以上分析我们可以看出不同注意力机制在稀疏程度方面的差异。这些差异有助于我们根据具体任务需求选择合适的注意力机制。 下面我们再来看一个最简单的例子不加f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性Attention同样可以用Mathematica硬算得 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ ( 7 ) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) 下面是几个不同β的函数图像 极简线性注意力的稀疏程度曲线图 极简线性注意力的稀疏程度曲线图 注意此时的S(a)是关于β偶函数读者不妨尝试证明一下所以β0时图像跟它相反数的图像是一样的因此上图只画了β≥0的结果。从图中可以看出不加任何激活函数的线性Attention的稀疏程度并不能接近0而是存在一个较高的下限这意味着当输入序列足够长时这种线性Attention并没有办法“集中注意力”到关键位置上。 您提到了一个最简单的注意力机制例子不加 f f f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性 Attention。根据您给出的公式7我们可以得到 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√。 您还提到了 S ( a ) S(a) S(a) 是关于 β β β 的偶函数所以 β 0 β0 β0 时图像跟它相反数的图像是一样的。因此在上图中只画了 β ≥ 0 β≥0 β≥0 的结果。从图中可以看出不加任何激活函数的线性 Attention 的稀疏程度并不能接近 0而是存在一个较高的下限。这意味着当输入序列足够长时这种线性 Attention 并没有办法“集中注意力”到关键位置上。 通过这个例子我们可以看出激活函数 f 在注意力机制中的重要作用。引入适当的激活函数如 exp、relu2 等可以帮助注意力更好地集中在关键位置上从而提高模型的性能。这也是为什么在实际应用中我们经常会看到各种不同的注意力机制变种它们通过引入不同的激活函数来适应不同的任务需求。 从《线性 Attention 的探索Attention 必须有个 Softmax 吗》我们知道线性 Attention 的一般形式为 a j ∝ g ( q ) ⋅ h ( k j ) a_j \propto g(q) \cdot h(k_j) aj​∝g(q)⋅h(kj​)其中 g,h 是值域非负的激活函数。我们记 q ′ g ( q ) q g(q) q′g(q), k ′ h ( k ) k h(k) k′h(k)那么 a j ∝ q ′ ⋅ k ′ a_j \propto q \cdot k aj​∝q′⋅k′并且可以写出 S ( a ) E [ ϵ ⋅ q ′ ⋅ k ′ ] E [ ϵ ⋅ q ′ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] q ′ ⋅ E [ ϵ ⋅ k ′ ] ⋅ q ′ q ′ ⋅ E [ ϵ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] ⋅ q ′ q ′ ⋅ μ ′ ⋅ q ′ q ′ ⋅ ( μ ′ ⋅ μ ′ T Σ ′ ) ⋅ q ′ 1 1 q ′ ⋅ Σ ′ ⋅ q ′ ⋅ ( q ′ ⋅ μ ′ ) 2 S(a) \frac{E[\epsilon \cdot q \cdot k]}{\sqrt{E[\epsilon \cdot q \cdot k \cdot k \cdot q]}} \frac{q \cdot E[\epsilon \cdot k] \cdot q}{\sqrt{q \cdot E[\epsilon \cdot k \cdot k \cdot q] \cdot q}} \frac{q \cdot \mu \cdot q}{\sqrt{q \cdot (\mu \cdot \mu^T \Sigma) \cdot q}} \frac{1}{1 q \cdot \Sigma \cdot q} \cdot (q \cdot \mu)^2 S(a)E[ϵ⋅q′⋅k′⋅k′⋅q′] ​E[ϵ⋅q′⋅k′]​q′⋅E[ϵ⋅k′⋅k′⋅q′]⋅q′ ​q′⋅E[ϵ⋅k′]⋅q′​q′⋅(μ′⋅μ′TΣ′)⋅q′ ​q′⋅μ′⋅q′​1q′⋅Σ′⋅q′1​⋅(q′⋅μ′)2 这是关于非负型线性 Attention 的一般结果现在还没做任何近似其中 μ ′ \mu μ′, Σ ′ \Sigma Σ′ 分别是 k ′ k k′ 序列的均值向量和协方差矩阵。 从这个结果可以看出非负型线性 Attention 也可能任意稀疏即 S ( a ) → 0 S(a) \rightarrow 0 S(a)→0只需要均值趋于 0或者协方差趋于 ∞ \infty ∞也就是说 k ′ k k′ 序列的信噪比尽可能小。然而 k ′ k k′ 序列是一个非负向量序列信噪比很小的非负序列意味着序列中大部分元素都是相近的于是这样的序列能表达的信息有限也意味着线性 Attention 通常只能表示绝对位置的重要性比如 Attention 矩阵即某一列都是 1而无法很好地表达相对位置的重要性这本质上也是线性 Attention 的低秩瓶颈的体现。 为了更形象地感知 S ( a ) S(a) S(a) 的变化规律我们不妨假设一种最简单的情况 k ′ k k′ 的每一个分量是独立同分布的这时候均值向量可以简化为 μ ′ 1 \mu 1 μ′1协方差矩阵则可以简化为 Σ ′ σ ′ 2 I \Sigma \sigma^2 I Σ′σ′2I那么 S ( a ) S(a) S(a) 的公式可以进一步简化为 S ( a ) 1 1 σ ′ ⋅ μ ′ ⋅ ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 S(a) \frac{1}{1 \sigma \cdot \mu \cdot \frac{\|q\|^2}{\|q\|_1}} S(a)1σ′⋅μ′⋅∥q′∥1​∥q′∥2​1​ 从这个结果可以看出要想线性注意力变得稀疏一个方向是增大 σ ′ ⋅ μ ′ \sigma \cdot \mu σ′⋅μ′即降低 k ′ k k′ 序列的信噪比另一个方向则是增大 ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 \frac{\|q\|^2}{\|q\|_1} ∥q′∥1​∥q′∥2​该因子最大值是 d − 1 2 d^{-\frac{1}{2}} d−21​其中 d 是 q,k 的维数所以增大它意味着要增大 d而增大了 d 意味着提高了注意力矩阵的秩的上限缓解了低秩瓶颈。 从《Google新作试图“复活”RNNRNN能否再次辉煌》中我们了解到线性RNN模型系列它们的特点是带有一个显式的递归这可以看成一个简单的Attention a ( a 1 , a 2 , ⋯ , a n − 1 , a n ) ( λ n − 1 , λ n − 2 , ⋯ , λ , λ 1 ) a(a_1,a_2,\cdots,a_{n-1},a_n)(\lambda_{n-1},\lambda_{n-2},\cdots,\lambda,\lambda_1) a(a1​,a2​,⋯,an−1​,an​)(λn−1​,λn−2​,⋯,λ,λ1​)。其中 λ ∈ ( 0 , 1 ] \lambda\in(0,1] λ∈(0,1]。我们可以算出 S ( a ) 1 − λ n n ( 1 − λ ) n − 1 λ 1 n − 1 ( 1 − λ ) n − 1 λ 1 n ( 1 − λ ) n − 2 ⋯ λ n 2 ( 1 − λ ) λ n n S(a) 1 - \lambda_n^n (1-\lambda)^{n-1} \lambda_1^{n-1} (1-\lambda)^{n-1} \lambda_1^n (1-\lambda)^{n-2} \cdots \lambda_n^2 (1-\lambda) \lambda_n^n S(a)1−λnn​(1−λ)n−1λ1n−1​(1−λ)n−1λ1n​(1−λ)n−2⋯λn2​(1−λ)λnn​ 当 λ 1 \lambda1 λ1 时只要 n → ∞ n\rightarrow\infty n→∞总有 S ( a ) → 0 S(a)\rightarrow 0 S(a)→0。所以对于带有显式Decay的线性RNN模型来说稀疏性是不成问题的它的问题是只能表达随着相对位置增大而衰减的、固定不变的注意力从而无法自适应地关注到距离足够长的Context。 通过这个例子我们可以看出线性RNN模型系列在注意力分配方面的局限性。为了更好地适应不同的任务需求我们可以尝试结合其他注意力机制如门控注意力等以提高模型的表达能力。 稀疏程度指标 S(x) 是用来衡量一个随机变量或随机向量中非零元素的重要性和数量。这个指标与信息熵有关联但它的侧重点在于度量数据的稀疏程度即数据中非零元素的平均能量与整个数据的平均能量之比。 在 l1/l2 形式中S(x) 被定义为 S ( x ) E [ ∣ x ∣ ] E [ x 2 ] S(x) \frac{E[|x|]}{\sqrt{E[x^2]}} S(x)E[x2] ​E[∣x∣]​ 其中 E 表示期望值。S(x) 的值越小意味着数据 x 的稀疏程度越高。具体来说 ( E[|x|] ) 测量的是 x 的绝对值的期望值这可以理解为数据中非零元素的平均绝对值。( \sqrt{E[x^2]} ) 测量的是 x 的平方的期望值的平方根这可以理解为数据中所有元素包括零和非零的平均能量。 因此S(x) 能够反映数据中非零元素相对于整个数据的重要性。如果 S(x) 接近于 0这通常意味着数据非常稀疏大部分元素都是零只有少数非零元素对整体能量有显著贡献。这种情况下数据可能近似于 one-hot 分布即大部分元素为零只有一个元素为非零。 需要注意的是虽然 S(x) 可以用来衡量稀疏程度但它并不直接度量信息熵。信息熵通常用于度量一个随机变量的不确定性或信息含量而 S(x) 更侧重于度量数据中非零元素的重要性和数量。 您所描述的简化形式是针对注意力机制中的某个指标 S(a)。首先我们记 a(a1,a2,⋯,an)其中 aj∝f(q⋅kj)。然后我们考虑 n→∞ 的极限。为了简化计算假设 k∼N(μ,σ2I)那么可以设 kμσε其中 ε∼N(0,I)。 接下来我们利用各向同性的性质来简化计算。由于 ε 所服从的分布 N(0,I) 是一个各向同性的分布与《n 维空间下两个随机向量的夹角分布》推导的化简思路一样由于各向同性的原因 q⋅ε 相关的数学期望只与 q 的模长有关跟它的方向无关。于是我们可以将 q 简化为 (‖q‖,0,0,⋯,0)那么对 ε 的数学期望就可以简化为 S ( a ) E ε [ ∣ f ( q ⋅ μ σ ‖ q ‖ ε ) ∣ ] E ε [ f 2 ( q ⋅ μ σ ‖ q ‖ ε ) ] S(a) Eε[|f(q⋅μσ‖q‖ε)|]Eε[f^2(q⋅μσ‖q‖ε)] S(a)Eε[∣f(q⋅μσ‖q‖ε)∣]Eε[f2(q⋅μσ‖q‖ε)] 其中 ε∼N(0,1) 是一个随机标量。这样我们就成功地将原本复杂的计算简化为了更易于处理的随机标量计算。 您举了两个例子分别是常见的高斯注意力Gaussian Attention和笔者喜欢的 GAUGated Attention Unit。通过对这两种注意力机制的稀疏程度进行分析我们可以更深入地了解它们的特点。 高斯注意力对于高斯注意力我们使用 fexp。这种情况下求期望只是常规的一维高斯积分。根据您给出的公式5我们可以得到 S(a)exp(−12σ2∥q∥2)。当 σ→∞ 或 ∥q∥→∞ 时都有 S(a)→0。这意味着理论上标准注意力确实可以任意稀疏地“集中注意力”。同时这个结果也告诉了我们让注意力更集中的方法增大 q 的模长或者增大各个 k 之间的方差换言之拉开 k 的差距。GAUGated Attention Unit对于 GAU您提到开始提出的时候是 frelu2。这种情况下积分没有 fexp 那么简单。根据您给出的公式6我们可以得到 S ( a ) e − β 22 γ 2 ( 2 − − √ β γ π − − √ e β 22 γ 2 ( β 2 γ 2 ) ( e r f ( β 2 √ γ ) 1 ) ) π − − √ 422 − − √ β γ e − β 22 γ 2 ( β 2 5 γ 2 ) 2 π − − √ ( β 4 6 β 2 γ 2 3 γ 4 ) ( e r f ( β 2 √ γ ) 1 ) − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ S(a)e−β22γ2(2−−√βγπ−−√eβ22γ2(β2γ2)(erf(β2√γ)1))π−−√422−−√βγe−β22γ2(β25γ2)2π−−√(β46β2γ23γ4)(erf(β2√γ)1)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√。从公式中可以看出只有 β 0 β0 β0 时原版 GAU 的稀疏度才有机会趋于 0。这也说明了跟 f e x p fexp fexp 的标准注意力不同k 的 bias 项可能会对 f r e l u 2 frelu2 frelu2 的 GAU 有正面帮助。 通过以上分析我们可以看出不同注意力机制在稀疏程度方面的差异。这些差异有助于我们根据具体任务需求选择合适的注意力机制。 下面我们再来看一个最简单的例子不加 f f f或者等价地说 f i d e n t i c a l fidentical fidentical。这种情况下对应的就是最简单的一种线性Attention同样可以用Mathematica硬算得 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ ( 7 ) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√(7) 注意此时的S(a)是关于β偶函数读者不妨尝试证明一下所以β0时图像跟它相反数的图像是一样的因此上图只画了β≥0的结果。从图中可以看出不加任何激活函数的线性Attention的稀疏程度并不能接近0而是存在一个较高的下限这意味着当输入序列足够长时这种线性Attention并没有办法“集中注意力”到关键位置上。 您提到了一个最简单的注意力机制例子不加 f或者等价地说 fidentical。这种情况下对应的就是最简单的一种线性 Attention。根据您给出的公式7我们可以得到 S ( a ) 2 π − − √ γ e − β 22 γ 2 β e r f ( β 2 √ γ ) β 2 γ 2 − − − − − − √ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√ S(a)2π−−√γe−β22γ2βerf(β2√γ)β2γ2−−−−−−√。 您还提到了 S(a) 是关于 β 的偶函数所以 β0 时图像跟它相反数的图像是一样的。因此在上图中只画了 β≥0 的结果。从图中可以看出不加任何激活函数的线性 Attention 的稀疏程度并不能接近 0而是存在一个较高的下限。这意味着当输入序列足够长时这种线性 Attention 并没有办法“集中注意力”到关键位置上。 通过这个例子我们可以看出激活函数 f 在注意力机制中的重要作用。引入适当的激活函数如 exp、relu2 等可以帮助注意力更好地集中在关键位置上从而提高模型的性能。这也是为什么在实际应用中我们经常会看到各种不同的注意力机制变种它们通过引入不同的激活函数来适应不同的任务需求。 从《线性 Attention 的探索Attention 必须有个 Softmax 吗》我们知道线性 Attention 的一般形式为 (a_j \propto g(q) \cdot h(k_j))其中 g,h 是值域非负的激活函数。我们记 (q’ g(q)), (k’ h(k))那么 (a_j \propto q’ \cdot k’)并且可以写出 S ( a ) E [ ϵ ⋅ q ′ ⋅ k ′ ] E [ ϵ ⋅ q ′ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] q ′ ⋅ E [ ϵ ⋅ k ′ ] ⋅ q ′ q ′ ⋅ E [ ϵ ⋅ k ′ ⋅ k ′ ⋅ q ′ ] ⋅ q ′ q ′ ⋅ μ ′ ⋅ q ′ q ′ ⋅ ( μ ′ ⋅ μ ′ T Σ ′ ) ⋅ q ′ 1 1 q ′ ⋅ Σ ′ ⋅ q ′ ⋅ ( q ′ ⋅ μ ′ ) 2 S(a) \frac{E[\epsilon \cdot q \cdot k]}{\sqrt{E[\epsilon \cdot q \cdot k \cdot k \cdot q]}} \frac{q \cdot E[\epsilon \cdot k] \cdot q}{\sqrt{q \cdot E[\epsilon \cdot k \cdot k \cdot q] \cdot q}} \frac{q \cdot \mu \cdot q}{\sqrt{q \cdot (\mu \cdot \mu^T \Sigma) \cdot q}} \frac{1}{1 q \cdot \Sigma \cdot q} \cdot (q \cdot \mu)^2 S(a)E[ϵ⋅q′⋅k′⋅k′⋅q′] ​E[ϵ⋅q′⋅k′]​q′⋅E[ϵ⋅k′⋅k′⋅q′]⋅q′ ​q′⋅E[ϵ⋅k′]⋅q′​q′⋅(μ′⋅μ′TΣ′)⋅q′ ​q′⋅μ′⋅q′​1q′⋅Σ′⋅q′1​⋅(q′⋅μ′)2 这是关于非负型线性 Attention 的一般结果现在还没做任何近似其中 (\mu’), (\Sigma’) 分别是 (k’) 序列的均值向量和协方差矩阵。 从这个结果可以看出非负型线性 Attention 也可能任意稀疏即 (S(a) \rightarrow 0)只需要均值趋于 0或者协方差趋于 (\infty)也就是说 (k’) 序列的信噪比尽可能小。然而 (k’) 序列是一个非负向量序列信噪比很小的非负序列意味着序列中大部分元素都是相近的于是这样的序列能表达的信息有限也意味着线性 Attention 通常只能表示绝对位置的重要性比如 Attention 矩阵即某一列都是 1而无法很好地表达相对位置的重要性这本质上也是线性 Attention 的低秩瓶颈的体现。 为了更形象地感知 (S(a)) 的变化规律我们不妨假设一种最简单的情况(k’) 的每一个分量是独立同分布的这时候均值向量可以简化为 (\mu’ 1)协方差矩阵则可以简化为 (\Sigma’ \sigma’^2 I)那么 (S(a)) 的公式可以进一步简化为 S ( a ) 1 1 σ ′ ⋅ μ ′ ⋅ ∥ q ′ ∥ 2 ∥ q ′ ∥ 1 S(a) \frac{1}{1 \sigma \cdot \mu \cdot \frac{\|q\|^2}{\|q\|_1}} S(a)1σ′⋅μ′⋅∥q′∥1​∥q′∥2​1​ 从这个结果可以看出要想线性注意力变得稀疏一个方向是增大 (\sigma’ \cdot \mu’)即降低 (k’) 序列的信噪比另一个方向则是增大 (\frac{|q’|^2}{|q’|_1})该因子最大值是 (d^{-\frac{1}{2}})其中 d 是 q,k 的维数所以增大它意味着要增大 d而增大了 d 意味着提高了注意力矩阵的秩的上限缓解了低秩瓶颈。 从《Google新作试图“复活”RNNRNN能否再次辉煌》中我们了解到线性RNN模型系列它们的特点是带有一个显式的递归这可以看成一个简单的Attention a ( a 1 , a 2 , ⋯ , a n − 1 , a n ) ( λ n − 1 , λ n − 2 , ⋯ , λ , λ 1 ) a(a_1,a_2,\cdots,a_{n-1},a_n)(\lambda_{n-1},\lambda_{n-2},\cdots,\lambda,\lambda_1) a(a1​,a2​,⋯,an−1​,an​)(λn−1​,λn−2​,⋯,λ,λ1​)。其中 λ ∈ ( 0 , 1 ] \lambda\in(0,1] λ∈(0,1]。我们可以算出 S ( a ) 1 − λ n n ( 1 − λ ) n − 1 λ 1 n − 1 ( 1 − λ ) n − 1 λ 1 n ( 1 − λ ) n − 2 ⋯ λ n 2 ( 1 − λ ) λ n n S(a) 1 - \lambda_n^n (1-\lambda)^{n-1} \lambda_1^{n-1} (1-\lambda)^{n-1} \lambda_1^n (1-\lambda)^{n-2} \cdots \lambda_n^2 (1-\lambda) \lambda_n^n S(a)1−λnn​(1−λ)n−1λ1n−1​(1−λ)n−1λ1n​(1−λ)n−2⋯λn2​(1−λ)λnn​ 当 λ 1 \lambda1 λ1 时只要 n → ∞ n\rightarrow\infty n→∞总有 S ( a ) → 0 S(a)\rightarrow 0 S(a)→0。所以对于带有显式Decay的线性RNN模型来说稀疏性是不成问题的它的问题是只能表达随着相对位置增大而衰减的、固定不变的注意力从而无法自适应地关注到距离足够长的Context。 通过这个例子我们可以看出线性RNN模型系列在注意力分配方面的局限性。为了更好地适应不同的任务需求我们可以尝试结合其他注意力机制如门控注意力等以提高模型的表达能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/86781.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站建设采取招标的方式网站建设培训学校

文章目录 主要内容一.SQL练习题1.1757-可回收且抵制的产品代码如下(示例): 2.584-寻找用户推荐人代码如下(示例): 3.595-大的国家代码如下(示例): 4.1148-文章浏览代码如下(示例): 5…

建设工程查询网站大宗商品采购平台

robotframework(后续简称为robot)是一款自动化测试框架,可能做各种类型的自动化测试。 本文介绍通过robotframework来做接口测试。 在robot当中,python语言的接口测试库名称为RequestsLibrary 安装语法如下: pip install -U requests pip …

相亲网站做期货现货贵金属的人电子商务网站开发的形式有

来源:刘锋的未来课堂21世纪以来,科技领域与一个神经学领域的概念 “大脑”出现了意外的结合,涌现出诸多前沿科技的大脑概念。从互联网大脑,城市大脑,到谷歌大脑,百度大脑,讯飞超脑、360安全大脑…

西安高端网站制作网站域名查询网

在python中查看模块功能的方法:1、在python命令行输入help()函数进入help帮助文档界面;2、键入【modules】列出当前所有安装的模块;3、键入相应的模块名称即可得到该模块的功能信息。python的一个优势是有着大量自带和在线的模块(module)资源…

网站内容包括哪些公司网页设计毕业设计

传送门 文章目录题意:思路:题意: 给三个数的lcmlcmlcm和gcdgcdgcd,求满足条件的三元组组合个数。 思路: 首先lcmmodgcd0lcm\bmod gcd0lcmmodgcd0是有组合的条件,否则输出0。 现在可知lcm(x′,y′,z′)lc…

浙江网站建设排名建设企业网站官网企业

先放效果图: CSDN这个问题最火的大哥的用了没用 像他这样连浏览器都打不开 为什么要禁止chrome自动更新 看到很多搞笑的大哥,说为啥要禁止; 我觉得最大的原因就是chromedriver跟不上chrome的自动更新,导致我们做selenium爬虫的…

青岛私人做网站小程序登录不上去怎么办

开关和电灯之间并不存在直接耦合关系,在命令模式中,发送者与接收者之间引入了新的命令对象,将发送者的请求封装在命令对象中,再通过命令对象来调用接收者的方法。 命令模式的主要缺点如下: 使用命令模式可能会导致某…

重庆网站建设优化软件开发外包合同

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

网站开发费用摊销年限新浦网站制作

表白很感动的英语句子13、在这快乐分享的时刻,思念好友的时刻,美梦成真的时刻,祝你—新年快乐,佳节如意!Wish you a happy new year and a good fortune in the coming year when we will share our happiness, think of our good…

如何网站托管无锡网站推广哪家公司好

1、题目描述 如果一个日期中年月日的各位数字之和是完全平方数,则称为一个完全日期。 例如:2021年6月5日的各位数字之和为20216516,而16是一个完全平方数,它是4的平方。所以2021年6月5日是一个完全日期。 请问,从200…

加强酒店网站建设的建议上海网站关键词优化服务

“我有一个很重要的压缩包保存在电脑上,但是不知道为什么里面有些文件丢失了。有什么方法可以快速找回压缩文件?请大家给我支支招吧!” 如果我们的文件太多,将它们放在压缩包中不仅能让文件更有序,还能更合理的节省电脑…

网站建设评价标准有区域名和主机怎么做网站

2月5日,春节将至年味渐浓,阿里云通义千问APP上线多项免费新应用,涵盖全家福、拜新年、万物成龙等图像生成的新玩法,共提供超300套照片模板,用户上传照片即可生成全家福、团圆照、拜年照、千里江山主题照;此…

网站导航是怎么做的东莞网站优化如何

🌈个人主页:聆风吟 🔥系列专栏:数据结构、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 📋前言一. 什么是人工智能?二. 人工智能的关键技术2.1 机器学习2.2 深度学习2.1 计算机…

企业网站建设规划 论文连云港做网站企业

前言:之前的基于单片机的闭环控制步进电机项目其实已经完成了,但很多时间都花在调试和生产上,实在没时间去做总结笔记,现在又开始做新项目了,从单片机到了Linux,想用这个平台来督促自己继续学习&#xff0c…

诏安网站建设好的室内设计网站推荐

CTE(Common Table Expressions) 简单讲,CTE就是日常SQL中出现的with语句,其原理就是通过提前将数据查询出来后作为临时结果集使用,可以与SELECT \ INSERT \ UPDATE \ DELETE的SQL连用。 优点 可读性强 CTE 允许你将…

天津网站制作系统网站域名续费后SEO查询未更换

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏 …

网站建设推广价格wordpress换行

文章目录 **项目功能简介:****点餐系统分为前台和后台****前台功能介绍:****后台功能介绍:** **论文截图:****实现:****代码片段:** 编程技术交流、源码分享、模板分享、网课教程 🐧裙:77687156…

网络营销建设网站实训网站建设技术规范

参考链接:https://www.cnblogs.com/0yst3r-2046/p/12172757.html 仿射加密法 在仿射加密法中,字母表的字母被赋予一个数字,例如 a0,b1,c2…z25 。仿射加密法的密钥为0-25直接的数字对。 仿射加密法与单码加密法没什么…

重庆官方网站查询系统苏州公司

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 文章目录 前言1 我的环境2 代码实现与执行结果2.1 前期准备2.1.1 引入库2.1.2 设置GPU(如果设备上支持GPU就使用GPU,否则使用C…

网站粘度html登录界面设计

centos关机命令: 1、halt 立马关机 2、shutdown -h 10 1分钟后自动关机 3、poweroff 立刻关机,并且电源也会断掉 4、shutdown -h now 立刻关机(root用户使用) 如果是通过shutdown命令设置关机的话,可以用shutdown -c命令取消重启转载于:https://www.cnbl…