面试常问系列(一)-神经网络参数初始化-之-softmax

背景

本文内容还是对之前关于面试题transformer的一个延伸，详细讲解一下softmax

面试常问系列(二)-神经网络参数初始化之自注意力机制-CSDN博客

Softmax函数的梯度特性与输入值的幅度密切相关，这是Transformer中自注意力机制需要缩放点积结果的关键原因。以下从数学角度展开分析：

1. Softmax 函数回顾

给定输入向量 z = [z₁, z₂, ..., zₖ]，Softmax 输出概率为：

$\sigma(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{k}e^{z_j}} =\frac{e^{z_i}}{S},S=\sum_{j=1}^{k}e^{z_j}$

其中 S 是归一化因子。

2. 梯度计算目标

计算 Softmax 对输入 z 的梯度，即 $\frac{\delta \sigma_i}{\delta z_j}$ 对所有 i,j∈{1,…,k}。

3. 梯度推导

根据链式法则，对 σi 关于 zj 求导：

$\frac{\delta \sigma_i}{\delta z_j} = \left\{\begin{matrix} &\sigma_i(1-\sigma_j)) &if &i=j, \\ & -\sigma_i\sigma_j &if &i\neq j, \end{matrix}\right.$

具体推到过程就不展示了，感兴趣的有需要的可以评论下。因为本次重点不是通用的softmax分析，而是偏实战分析。

4. 与交叉熵损失结合的梯度

在实际应用中，Softmax 通常与交叉熵损失 $L = \sum_{i=1}^{n}y_i*log\sigma_i$ 结合使用。此时梯度计算更简单：

$\frac{\partial L }{\partial z_j} = \sigma(z_j)-y_j$

其中 $y_j$ 是真实标签的 one-hot 编码。

5. 推导

交叉熵损失对 $\sigma_i$ 的梯度：

$\frac{\partial L }{\partial\sigma_i} = -\frac{y_i}{\sigma_i}$

2. 通过链式法则：

$\frac{\partial L }{\partial z_j} =\sum_{i} \frac{\partial L }{\partial \sigma_i}\frac{\partial \sigma_i }{\partial z_j}=\sum_{i} -\frac{y_i }{\sigma_i}\frac{\partial \sigma_i }{\partial z_j}$

3. 代入在上面求解出的 $\frac{\delta \sigma_i}{\delta z_j}$ ：

当 $i = j$ 时， $\frac{\partial L }{\partial z_j} =-\frac{y_i }{\sigma_j}*\sigma_j(1-\sigma_j)=-y_i*(1-\sigma_j)$
当 $i \neq j$ 时， $\frac{\partial L }{\partial z_j} =\sum_{i\neq j}-\frac{y_i }{\sigma_j}*(-\sigma_i\sigma_j)=\sigma_j*\sum_{i\neq j}{y_i}$

4.合并上述结果

$\frac{\partial L }{\partial z_j} =-y_j*(1-\sigma_j) + \sigma_j*(1-y_j)=\sigma_j-y_j$

6. 梯度消失问题

极端输入值：若远大于其他，则，其他。此时：
- 对 $z_k$ 的梯度： $-y_k*(1-\sigma_{z_k}) \approx 0$ （若yk=1，梯度接近0）。
- 对其他zi的梯度： $\sigma (z_i) \approx 0, \sigma_j*\sum_{i\neq j}{y_i} \approx 0$ ，梯度趋近于0。
后果：梯度消失导致参数更新困难，模型难以训练。