一、 基本定义
线性回归是一种用于建模和分析一个或多个自变量(X)与一个因变量(Y)之间线性关系的统计方法。其核心目标是找到一条最佳拟合直线,用以描述变量间的关系,从而实现预测或因果分析。
二、 模型构成
线性回归模型的基本数学表达式为:
Y = β₀ + β₁X + ε
Y:因变量(需要预测的目标)。
X:自变量(用于预测的特征)。
β₀:截距参数,表示当X为0时Y的基准值。
β₁:斜率参数,表示X每变动一个单位,Y的平均变动量。
ε:随机误差项,代表模型无法解释的波动。
三、 误差与核心思想
模型预测值 ( Ŷ = β₀ + β₁X ) 与真实值 ( Y ) 之间存在差异,即误差。
线性回归的核心思想是最小化所有数据点的误差平方和,这一方法被称为最小二乘法。其目标函数为:
min Σ(Yᵢ - Ŷᵢ)²
通常假设误差(ε)服从均值为0的正态分布。
四、 参数估计方法
- 最小二乘法
通过数学推导直接求解能使误差平方和最小的参数β₀和β₁。
是一种精确的解析解法。 - 梯度下降法
一种迭代优化算法,用于在无法直接求解时寻找最优参数。
通过计算损失函数(如均方误差)的梯度,并沿梯度反方向逐步更新参数,直至收敛到最小值。参数更新公式为:
β_new = β_old - α * ∇J(β)
其中,α为学习率,∇J(β)为损失函数关于参数β的梯度。
尤其适用于大规模数据集或更复杂的模型。
五、 模型评估
在线性回归中,常用以下方法评估模型性能:
R²(决定系数):衡量模型对因变量变化的解释程度,越接近1表示模型拟合效果越好。计算公式为:
R² = 1 - (SS_res / SS_tot)
其中,SS_res 为残差平方和,SS_tot 为总平方和。
均方误差 (MSE):计算预测值与真实值之间差异的平方的平均值,衡量模型的预测精度。计算公式为:
MSE = (1/n) * Σ(Yᵢ - Ŷᵢ)²
残差分析:通过检查残差(误差)的分布是否随机,来判断模型假设是否合理。
六、 核心价值
线性回归是机器学习中最基础、最直观的模型之一。理解其原理为学习更复杂的算法(如逻辑回归、多项式回归及正则化方法)奠定了坚实的基础。