“天作之合”softmax与CrossEntropy

本文从 $\text{max}$ 到 $\operatorname{logsumexp}$ ，再到 $\text{softmax}$ 进行了一个简单推导，最后说明了 $\text{softmax}$ 与CrossEntropy的关系。希望帮助大家理解多分类损失函数CrossEntropy。

max

首先，给出 $\text{max}$ 函数的表达式
$\max \left(x_{1}, x_{2}, \ldots, x_{n}\right)=\lim _{K \rightarrow+\infty} \frac{1}{K} \log \left(\sum_{i=1}^{n} e^{K x_{i}}\right)$

这个式子怎么来的，详见：链接

然后，选定常数 $K$ ，就有近似
$\max \left(x_{1}, x_{2}, \ldots, x_{n}\right) \approx \frac{1}{K} \log \left(\sum_{i=1}^{n} e^{K x_{i}}\right)$

在模型中，很多时候可以设 $K = 1$ ，这等价于把 $K$ 融合到模型自身之中，所以最简单地有 $\text{max}$ 的光滑近似:
$\begin{aligned} \max \left(x_{1}, x_{2}, \ldots, x_{n}\right) & \approx \log \left(\sum_{i=1}^{n} e^{x_{i}}\right) \\ & \triangleq \operatorname{logsumexp}\left(x_{1}, x_{2}, \ldots, x_{n}\right) \end{aligned}$

很多时候 $x$ 也是学习而来的，直接设 $K = 1$ ，相当于让模型自己决定 $K$ 的大小

softmax

$\text{softmax}$ 不是 $\text{max}$ 的光滑近似，而是 $\operatorname{onehot}(\arg \max (\boldsymbol{x}))$ 的光滑近似

$\operatorname{onehot}(\arg \max (\boldsymbol{x}))$ :先求出最大值所在的位置，然后生成一个等长的向量，最大值那一位置1，其它位置都置0。例如：
$\quad \rightarrow \quad[0,0,0,1,0]$

简单推导 $\text { logsumexp=>softmax }$

给出向量 $\boldsymbol{x}=\left[x_{1}, x_{2}, \ldots, x_{n}\right]$ ，然后每一位都减去整体的最大值，得到 $\boldsymbol{x}^{\prime}=\left[x_{1}, x_{2}, \ldots, x_{n}\right]-\max \left(x_{1}, x_{2}, \ldots, x_{n}\right)$ ，这样新向量 $\boldsymbol{x}^{\prime}$ 与原向量 $\boldsymbol{x}$ 最大值所在位置是一样的，即 $\text{onehot}(\arg \max (\boldsymbol{x}))=\operatorname{onehot}\left(\arg \max \left(\boldsymbol{x}^{\prime}\right)\right)$
。

不失一般性，假设 $x_{1}, x_{2}, \ldots, x_{n}$ 两两不相等，那么新向量 $\boldsymbol{x}^{\prime}$ 的最大值显然为0，并且除去最大值外，其余各位都是负数。

那么，考虑对新向量 $\boldsymbol{x}^{\prime}$ 取指数得到
$e^{\boldsymbol{x}^{\prime}}=\left[e^{x_{1}-\max \left(x_{1}, x_{2}, \ldots, x_{n}\right)}, e^{x_{2}-\max \left(x_{1}, x_{2}, \ldots, x_{n}\right)}, \ldots, e^{x_{n}-\max \left(x_{1}, x_{2}, \ldots, x_{n}\right)}\right]$

作为 $\text{onehot}\left(\arg \max \left(\boldsymbol{x}^{\prime}\right)\right)$ 的近似，因为最大值为0，所以对应的位置是 $e^{0}=1$ ，而其余为负，取指数后会比较接近于 0。

此时，将 $\max \left(x_{1}, x_{2}, \ldots, x_{n}\right) \approx \log \left(\sum_{i=1}^{n} e^{x_{i}}\right)$ 带入上式得到
$\begin{aligned} \operatorname{onehot}(\arg \max (\boldsymbol{x})) &=\operatorname{onehot}\left(\arg \max \left(\boldsymbol{x}^{\prime}\right)\right) \\ & \approx\left(\frac{e^{x_{1}}}{\sum_{i=1}^{n} e^{x_{i}}}, \frac{e^{x_{2}}}{\sum_{i=1}^{n} e^{x_{i}}}, \ldots, \frac{e^{x_{n}}}{\sum_{i=1}^{n} e^{x_{i}}}\right) \\ & \triangleq \operatorname{softmax}\left(x_{1}, x_{2}, \ldots, x_{n}\right) \end{aligned}$

softmax的作用

$\text{softmax}$ 的作用是把一个序列，变成概率。
$P(\mathbf{x}):\left[\begin{array}{c} x_{1} \\ x_{2} \\ \cdots \\ x_{n} \end{array}\right] \rightarrow\left[\begin{array}{c} P_{1} \\ P_{2} \\ \cdots \\ P_{n} \end{array}\right]$
$P_{j}=\frac{e^{x_{j}}}{\sum_{i=1}^{n} e^{x_{i}}} \quad \forall j \in 1 \cdots N$
从概率的角度解释 $\text{softmax}$ 的话，就是
$P_{j}=\boldsymbol{P}(y=j \mid x)$

softmax的实现以及数值稳定性

代码实现：

def softmax(x):"""Compute the softmax of vector x."""exps = np.exp(x)return exps / np.sum(exps)

但是这种方法非常的不稳定。因为这种方法要算指数，只要你的输入稍微大一点，比如：
$[10000, 20000, 30000]$
分母上就是
$e^{10000}+e^{20000}+e^{30000}$
很明显，在计算上一定会溢出。

解决办法：在分子分母上都乘上一个系数，减小数值大小，同时保证整体还是对的
$P_{j}=\frac{e^{x_{j}}}{\sum_{i=1}^{n} e^{x_{i}}}=\frac{C e^{x_{j}}}{\sum_{i=1}^{n} C e^{x_{i}}}$
常数 $C$ 吸收进指数里面
$\begin{aligned} P_{j} &=\frac{e^{x_{j}+\log (C)}}{\sum_{i=1}^{n} e^{x_{i }+\log (C)}} \\ P_{j} &=\frac{e^{x_{j}+D}}{\sum_{i=1}^{n} e^{x_{i}+D}} \end{aligned}$
这里的 $D$ 一般取 $D=-\max \left(x_{1}, x_{2}, \cdots, x_{n}\right)$

代码实现：

def stablesoftmax(x):"""Compute the softmax of vector x in a numerically stable way."""shiftx = x - np.max(x)exps = np.exp(shiftx)return exps / np.sum(exps)

输入差别过大时，还是会有数值稳定性问题。
Softmax_Cross_Entropy的实现方式如下
$\begin{gathered} \log \left(P_{j}\right)=\log \left(\frac{e^{x_{j}}}{\sum_{i=1}^{i} e^{x_{i}}}\right) \\ =\log \left(e^{x_{j}}\right)-\log \left(\sum_{i=1}^{n} e^{x_{i}}\right) \\ =x_{j}-\log \left(\sum_{i=1}^{n} e^{x_{i}}\right) \end{gathered}$
LogSoftmax省了一个指数计算，省了一个除法，数值上相对稳定一些。

softmax与CrossEntropy

$\text{softmax}$ 本身没有太大关系，只是把这两个放在一起计算，算起来更快，数值稳定性也更好一些。

CrossEntropy

交叉熵本质是衡量两个概率分布的距离的，而softmax能把一切转换成概率分布，那么这两者就是“天作之合”。

交叉熵举例说明：

假设一个动物照片的数据集中有5种动物，且每张照片中只有一只动物，每张照片的标签都是one-hot编码。
$\begin{array}{|l|l|l|l|l|l|} \hline \text { Animal } & \text { Dog } & \text { Fox } & \text { Horse } & \text { Eagle } & \text { Squirrel } \\ \hline \text { Label } & {[1,0,0,0,0]} & {[0,1,0,0,0]} & {[0,0,1,0,0]} & {[0,0,0,1,0]} & {[0,0,0,0,1]} \\ \hline \end{array}$
第一张照片是狗的概率为100%，是其他的动物的概率是0；第二张照片是狐狸的概率是100%，是其他动物的概率是0，其余照片同理；因此可以计算下，每张照片的熵都为0。换句话说，以one-hot编码作为标签的每张照片都有100%的确定度，不像别的描述概率的方式：狗的概率为90%，猫的概率为10%。

假设有两个机器学习模型对第一张照片分别作出了预测：Q1和Q2,而第一张照片的真实标签为[1,0,0,0,0]。

$\begin{array}{|l|l|} \hline \text { Model } & \text { Prediction } \\ \hline \text { Q1 } & {[0.4,0.3,0.05,0.05,0.2]} \\ \hline \text { Q2 } & {[0.98,0.01,0,0,0.01]} \\ \hline \end{array}$

两个模型预测效果如何呢，可以分别计算下交叉熵：
$\begin{gathered} H\left(P_{1}, Q_{1}\right)=-\sum_{i} P_{1}(i) \log _{2} Q_{1}(i) \\ =-(1 \log 0.4+0 \log 0.3+0 \log 0.05+0 \log 0.05+0 \log 0.2) \approx 0.916 \\ H\left(P_{1}, Q_{2}\right)=-\sum_{i} P_{1}(i) \log _{2} Q_{2}(i) \\ =-(1 \log 0.98+0 \log 0.01+0 \log 0+0 \log 0+0 \log 0.01) \approx 0.02 \end{gathered}$