梯度（Gradient）与步长（Step Size）

梯度与步长是优化算法（如梯度下降法）的核心概念。以下是它们的详细解释：

定义
梯度是一个向量，表示多元函数在某一点处各方向的偏导数。对于函数 $ f(\mathbf{x}) $，其梯度为：
$\nabla f(\mathbf{x}) = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right]^T$
几何意义
- 方向：梯度指向函数值上升最快的方向，其反方向即为函数值下降最快的方向。
- 大小：梯度的模长（ $\|\nabla f\|$ ）表示该方向的变化速率。
应用
在梯度下降法中，参数沿梯度反方向更新以最小化目标函数。例如，参数更新规则为：
$\mathbf{w} = \mathbf{w} - \alpha \nabla f(\mathbf{w})$
其中 $\alpha$ 为步长（学习率）。

定义
步长（通常称为学习率）是一个标量值，记为 $\alpha$ ，用于控制参数更新的幅度。它决定了每次迭代中沿梯度方向移动的距离。
作用
- 过大：可能导致跳过最优解，甚至发散。
- 过小：收敛速度缓慢，训练时间增加。
动态调整
在高级优化方法（如 AdaGrad、Adam）中，步长可根据梯度历史信息自适应调整，以平衡收敛速度与稳定性。
术语辨析
- 固定步长：预设的固定学习率（如 $\alpha = 0.01$ ）。
- 线搜索步长：通过一维优化动态确定最优步长（如精确线搜索或 Armijo 条件）。