深度学习系统学习系列【4】之反向传播（BP)四个基本公式推导

补充知识：∇ 和 ⊙ 运算符详解
- ∇ (nabla) 运算符
- ⊙ (圆圈点) 运算符
反向传播基本公式
计算图和基本定义
BP1：输出层误差推导
- BP1公式的重要性
- 实际例子
- BP2第 $l$ 层误差推导
- BP3 ：损失函数关于偏置(b)偏导的推导
- BP4：损失函数关于权值(w)偏导推导

补充知识：∇ 和 ⊙ 运算符详解

在神经网络的反向传播算法中，我们经常会遇到像 $δ^{L} = \nabla_{a} L ⊙ f^{'} (z^{L})$ 这样的表达式。让我们来深入探讨其中的 ∇ (nabla) 和 ⊙ (圆圈点) 运算符。

∇ 符号在数学中被称为 “nabla” 或 “del” 运算符，它表示梯度（gradient）。在神经网络中：
∇ₐL 表示损失函数 L 相对于网络最后一层激活输出 aᴸ 的梯度
这是一个向量，其中每个元素是损失函数对相应激活值的偏导数
数学表达式为： $\nabla_{a} L = [\partial L / \partial a_{1}, \partial L / \partial a_{2}, ..., \partial L / \partial a_{n}]^{T}$
在反向传播中， $\nabla_{a} L$ 告诉我们如果稍微改变输出层的激活值，损失函数会如何变化。这是误差从损失函数向后传播的第一步。

方程	含义
$\delta^{L} = \nabla_{a} L \odot f^{\prime}(z^{L})$	BP1 输出层误差
$\delta^{l} = ((w^{l})^{T} \delta^{l+1}) \odot f^{\prime}(z^{l})$	BP2 第 $l$ 层误差
$\frac{\partial L}{\partial b_{i}^{l}} = \delta_{i}^{l}$	BP3 损失函数关于偏置(b)的偏导
$\frac{\partial L}{\partial w_{i,j}^{l}} = a_{j}^{l-1} \delta_{i}^{l}$	BP4 损失函数关于权值(w)的偏导

在这里插入图片描述

损失函数： $L=\frac{1}{2}(y-a^l)^2$
通项： $a^l=\delta(z^l)=\delta(w^la^{l-1}+b^l)$
定义第 $l$ 层的第 $i$ 个神经元的误差为 $\delta_i^l$
$\delta_i^l=\frac{\partial L}{\partial z_i^l}$

采用上图中 $l - 1$ 层 $z_1$ 节点为例
$\begin{align*} \delta &=\frac{\partial L}{\partial z_1^l} \\ &=\frac{\partial L}{\partial a_1^l} \times \frac{\partial a_1^l}{\partial z_1^l} \\ &=\frac{\partial [\frac{1}{2}(y_1-a_1^l)^2]}{\partial a_1^l}\times \frac{\partial a_1^l}{\partial z_1^l} \\ &=2\times \frac{1}{2} (a_1^l-y_1) \times \frac{\partial a_1^l}{\partial z_1^l} \\ &=(a_1^l-y_1) \delta^{'}(z_1^l) \\ &= \nabla_{a} L \odot f^{\prime}(z_1^{L}) \\ \end{align*}$
总结：输出层误差通用公式为： $\delta^{L} = \nabla_{a} L \odot f^{\prime}(z^{L})$
$f^{'} (z^{L})$ 是激活函数的导数在 $z^{L}$ 处的值
这个逐元素乘法将梯度信息与激活函数的局部变化率结合起来

假设我们有一个简单的输出层，使用 sigmoid 激活函数：
- 设 $a^{L} = [0.8, 0.3], y = [1, 0]$ (真实标签)
- 使用平方误差损失： $L = ½∣∣ y - a^{L} ∣ ∣^{2}$
- 则 $\nabla_{a} L = a^{L} - y = [- 0.2, 0.3]$
- sigmoid 的导数 $f^{'} (z) = a (1 - a)$ ，设 $f^{'} (z^{L}) = [0.16, 0.21]$
那么 $δ^{L} = [- 0.2, 0.3] ⊙ [0.16, 0.21] = [- 0.032, 0.063]$

前置公式：
- $z^{l+1}=w^{l+1}a^{l}+b^{l+1}$
- $a^{l+1}=\delta(z^l)$
  $\begin{align*} \delta^{l} &= \frac{\partial L}{\partial z^{l}}\\ &=\frac{\partial L}{\partial z_i^{l+1}} \times \frac{\partial z_i^{l+1}}{\partial z_i^{l}} \\ &=\delta_i^{l+1} \times \frac{\partial z_i^{l+1}}{a^l} \times \frac{\partial a^l}{\partial z^{l}}\\ &=\delta_i^{l+1} \times (w^l)^T \times \delta^{'}(z^l)\\ &=((w^l)^T \delta_i^{l+1}) \odot \delta^{'}(z^l) \end{align*}$
总结：BP2第 $l$ 层误差公式为： $\delta^{l} = ((w^{l})^{T} \delta^{l+1}) \odot f^{\prime}(z^{l})$

前置公式
- $a_1^l=\delta(z_1^l)$ 和 $a_2^l=\delta(z_2^l)$
- $z^l=w^la^{l-1}+b^l$
求上图中 $b_1$ 的偏导
$\begin{align*} \frac{\partial L}{\partial b_1} &=\frac{\partial L}{\partial z_1^l} \times \frac{\partial z_1^l}{\partial b_1^l} \\ &= \delta_1^l \times 1 \\ &= \delta_1^l \end{align*}$
求上图中 $b_2$ 的偏导
$\begin{align*} \frac{\partial L}{\partial b_2} &=\frac{\partial L}{\partial z_2^l} \times \frac{\partial z_2^l}{\partial b_2^l} \\ &= \delta_2^l \times 1 \\ &= \delta_2^l \end{align*}$
总结：BP3 损失函数关于偏置(b)偏导为： $\frac{\partial L}{\partial b_{i}^{l}} = \delta_{i}^{l}$

前置公式
- $z^l=w^la^{l-1}+b^l$
- $\delta_i^l=\frac{\partial L}{\partial z_i^l}$
详细推导过程：
$\begin{align*} \frac{\partial L}{\partial w_{i,j}^l} &=\frac{\partial L}{\partial z_i^l} \times \frac{\partial z_i^l}{\partial w_{i,j}^l} \\ &=\frac{\partial L}{\partial z_i^l} \times a_j^{l-1} \\ &= \delta_i^l \times a_j^{l-1} \\ &= a_j^{l-1} \times \delta_i^l \end{align*}$
总结：BP4：损失函数关于权值(w)偏导为： $\frac{\partial L}{\partial w_{i,j}^{l}} = a_{j}^{l-1} \delta_{i}^{l}$