11.11 Seminar

news/2025/11/7 10:46:59/文章来源:https://www.cnblogs.com/dingxingdi/p/19195519

多元共线性在回归分析中的影响与处理方法:根源、检测与补救策略

多元共线性是多元回归分析中常见的统计问题,尤其在计量经济学和数据科学领域,它指的是模型中自变量之间存在高度相关性。这种现象会使得难以分离每个预测变量对因变量的单独效应,从而削弱回归结果的可靠性。虽然它本身并不以导致估计偏差的方式违反普通最小二乘回归的核心假设,但它会膨胀系数估计的方差,给解释和推断带来实际挑战。在本综合概述中,我们将借鉴既定的统计原理和实证案例,深入探讨其根本原因、深远影响、检测技术和补救策略,以提供全面的理解。

1. 多元回归的核心假设

以下是六大核心假设:

1.1 线性于参数

  • 内容:因变量 $ Y $ 与自变量 $ X $ 和参数 $ \beta $ 之间的关系必须是线性的。形式为:

    \[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon \]

  • 注意:这并不要求 $ Y $ 和 $ X $ 本身是线性关系。你可以对 $ X $ 进行变换,如 $ X^2 $, $ \log(X) $,只要参数 $ \beta $ 是线性的即可。

1.2 随机抽样

  • 内容:我们使用的样本数据是从总体中随机抽取的。这确保了样本能够代表总体,避免了系统性偏差。

1.3 条件均值为零

  • 内容:给定任何自变量 $ X $ 的值,误差项 $ \epsilon $ 的期望值(均值)必须为零。即

    \[E(\epsilon | X) = 0 \]

  • 这是最关键也是最难满足的假设。它意味着模型已经完整地刻画了 $ X $ 与 $ Y $ 的关系,没有遗漏任何与 $ X $ 相关的系统性部分。

1.4 不存在完全多重共线性

  • 内容:自变量之间不能存在完全的线性关系。
  • 为什么:如果存在完全共线性(例如,一个变量是另一个变量的精确倍数),回归系数将无法唯一确定,$ (X'X)^{-1} $ 矩阵无法计算。

1.5 同方差性

  • 内容:给定任何自变量 $ X $ 的值,误差项 $ \epsilon $ 的方差必须是相同的常数 $ \sigma^2 $。即

    \[\text{Var}(\epsilon | X) = \sigma^2 \]

  • 形象理解:在散点图中,数据点围绕回归线的波动幅度应该大致均匀,不应随着 $ X $ 的增大而系统地变宽或变窄。

2. 为什么要有这些核心假设?

这些假设的存在是为了确保OLS估计量拥有我们期望的良好统计性质,从而使我们的分析和结论可靠。

2.1 为什么需要假设1、2、3?——为了“无偏性”

  • 假设1(线性)和假设3(条件均值为零)共同确保了我们的模型设定是正确的。如果假设3被违反(例如,因为遗漏了重要变量),就会导致遗漏变量偏差,OLS估计量将不再是无偏的。这意味着平均而言,我们的估计会系统地偏离真实值。

2.2 为什么需要假设4?——为了“估计可行”

  • 如果没有这个假设,回归模型将没有唯一解,我们根本无法计算出稳定的系数估计值。

2.3 为什么需要假设5?——为了“有效性”

  • 在同方差性下,OLS估计量是最有效的线性无偏估计量。如果违反此假设(出现异方差性),虽然OLS估计量仍然是无偏的,但它不再是“方差最小”的。它的标准误计算是不准确的,从而导致t检验和F检验不可靠。

3. 模型设定与OLS估计量

我们有一个标准的线性回归模型:

\[\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \]

其中:

  • \(\mathbf{y}\)\(n \times 1\) 的因变量向量
  • \(\mathbf{X}\)\(n \times k\) 的自变量矩阵(包含常数项)
  • \(\boldsymbol{\beta}\)\(k \times 1\) 的待估参数向量
  • \(\boldsymbol{\varepsilon}\)\(n \times 1\) 的误差项向量

OLS估计量 通过最小化残差平方和得到:

\[\hat{\boldsymbol{\beta}}_{OLS} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} \]

4. 高斯-马尔可夫假设

关键假设包括:

  1. 线性于参数:模型形式正确
  2. 随机抽样:样本是随机的
  3. 外生性\(E[\boldsymbol{\varepsilon}|\mathbf{X}] = \mathbf{0}\)
  4. 无完全多重共线性\(\mathbf{X}'\mathbf{X}\) 可逆
  5. 同方差性\(E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}] = \sigma^2\mathbf{I}_n\)

5. OLS的方差推导

首先证明OLS是无偏的:

\[E[\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}] = E[(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}|\mathbf{X}] = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'E[\mathbf{y}|\mathbf{X}] = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} \]

现在计算OLS的方差-协方差矩阵:

\[\text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) = E[(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})'|\mathbf{X}] \]

由于 \(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\boldsymbol{\varepsilon}\),我们有:

\[\text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) = E[(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}|\mathbf{X}] = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}]\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} \]

关键步骤:在同方差性假设下,\(E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}] = \sigma^2\mathbf{I}_n\),因此:

\[\text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'(\sigma^2\mathbf{I}_n)\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \sigma^2(\mathbf{X}'\mathbf{X})^{-1} \]

6. 证明OLS是最有效的

现在考虑任意其他线性无偏估计量 \(\tilde{\boldsymbol{\beta}}\)。由于是线性的,可以写成:

\[\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} \]

其中 \(\mathbf{C}\) 是某个 \(k \times n\) 矩阵。

无偏性条件

\[E[\tilde{\boldsymbol{\beta}}|\mathbf{X}] = \mathbf{C}E[\mathbf{y}|\mathbf{X}] = \mathbf{C}\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} \]

这要求 \(\mathbf{C}\mathbf{X} = \mathbf{I}_k\)

现在定义 \(\mathbf{D} = \mathbf{C} - (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\),那么:

\[\mathbf{D}\mathbf{X} = \mathbf{C}\mathbf{X} - (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X} = \mathbf{I}_k - \mathbf{I}_k = \mathbf{0} \]

计算其他估计量的方差

\[\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} = [\mathbf{D} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}']\mathbf{y} = \mathbf{D}\mathbf{y} + \hat{\boldsymbol{\beta}}_{OLS} \]

因此:

\[\tilde{\boldsymbol{\beta}} - \boldsymbol{\beta} = \mathbf{D}(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}) + (\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta}) = \mathbf{D}\boldsymbol{\varepsilon} + (\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta}) \]

方差-协方差矩阵

\[\text{Var}(\tilde{\boldsymbol{\beta}}|\mathbf{X}) = E[(\tilde{\boldsymbol{\beta}} - \boldsymbol{\beta})(\tilde{\boldsymbol{\beta}} - \boldsymbol{\beta})'|\mathbf{X}] \]

\[= E\{[\mathbf{D}\boldsymbol{\varepsilon} + (\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})][\mathbf{D}\boldsymbol{\varepsilon} + (\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})]'|\mathbf{X}\} \]

展开这个乘积:

\[= \mathbf{D}E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}]\mathbf{D}' + E[(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})'|\mathbf{X}] + \text{交叉项} \]

计算交叉项

\[\mathbf{D}E[\boldsymbol{\varepsilon}(\hat{\boldsymbol{\beta}}_{OLS} - \boldsymbol{\beta})'|\mathbf{X}] = \mathbf{D}E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}]\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \mathbf{D}(\sigma^2\mathbf{I}_n)\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \sigma^2\mathbf{D}\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \mathbf{0} \]

(因为 \(\mathbf{D}\mathbf{X} = \mathbf{0}\)

同理,另一个交叉项也为零。

最终得到

\[\text{Var}(\tilde{\boldsymbol{\beta}}|\mathbf{X}) = \mathbf{D}E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}'|\mathbf{X}]\mathbf{D}' + \text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) = \sigma^2\mathbf{D}\mathbf{D}' + \sigma^2(\mathbf{X}'\mathbf{X})^{-1} \]

\[= \text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) + \sigma^2\mathbf{D}\mathbf{D}' \]

7. 关键结论

由于 \(\sigma^2\mathbf{D}\mathbf{D}'\) 是一个半正定矩阵(对所有向量 \(\mathbf{z}\),有 \(\mathbf{z}'\mathbf{D}\mathbf{D}'\mathbf{z} = ||\mathbf{D}'\mathbf{z}||^2 \geq 0\)),我们得到:

\[\text{Var}(\tilde{\boldsymbol{\beta}}|\mathbf{X}) - \text{Var}(\hat{\boldsymbol{\beta}}_{OLS}|\mathbf{X}) = \sigma^2\mathbf{D}\mathbf{D}' \succeq 0 \]

这意味着对于任意其他线性无偏估计量 \(\tilde{\boldsymbol{\beta}}\),其方差-协方差矩阵至少与OLS的方差-协方差矩阵一样大。特别地,对于任何一个参数 \(\beta_j\),有:

\[\text{Var}(\tilde{\beta}_j) \geq \text{Var}(\hat{\beta}_{j,OLS}) \]

8. 多元共线性的根本原因

多元共线性的起源是多方面的,通常与数据的收集、结构或建模方式有关。其核心在于当两个或更多自变量表现出强烈的线性关系时出现,即一个变量可以近似地由其他变量预测。这可能表现为完全共线性——存在精确的线性依赖关系,导致模型无法求解——或高度(但不完全)共线性,即相关性很强但并非绝对。

主要来源包括:

8.1 数据收集与设计缺陷

  • 在观测数据中,变量可能由于外部因素而自然相关。例如,在一项预测家庭用电量的研究中,收入和家电数量通常是相关的,因为更高的收入允许购买更多家电。设计不当的实验或相对于变量数量而言过小的样本量会加剧这种情况,增加了抽样导致相关性的可能性。

8.2 衍生或冗余变量

  • 从现有变量创建新变量会引入结构性共线性。例如,根据身高和体重计算身体质量指数,或在同一模型中同时使用华氏温度和摄氏温度,因为它们传递了相同的信息。在投资分析中,从相同价格数据衍生出的技术指标(例如,RSI和随机指标等多个动量指标)可能产生相似的结果,从而扭曲结果。

8.3 虚拟变量陷阱

虚拟变量,也称为指示变量二元变量,是一种在回归分析中用来表示分类数据(或称定性数据)的数值变量。

简单来说,它通过简单的 01 编码,将无法直接用于数学计算的类别(如性别、民族、是否毕业、季节等)转化为回归模型可以理解的数值形式。

  • 1 通常表示某一类别“存在”“是”
  • 0 通常表示该类别“不存在”“否”(即作为参照基准)。

8.3.1 为什么需要虚拟变量?

回归模型(如线性回归)要求自变量是数值型的。你不能直接将“红色”、“蓝色”、“绿色”这样的颜色类别放入方程中。虚拟变量通过创建一组“开关”(0或1),巧妙地解决了这个问题,使得模型能够捕捉到不同类别对结果变量的影响。

8.3.2 如何创建虚拟变量?

创建一个虚拟变量的规则是:对于一个有 \(k\) 个不同类别的分类变量,你需要创建 \((k-1)\) 个虚拟变量

这个“-1”至关重要,目的是为了避免之前提到的 “虚拟变量陷阱”(即完全多重共线性)。被省略的那个类别就成为了基准类别参照组,其他虚拟变量的系数都是相对于这个基准类别来解释的。

示例1:二分类变量(\(k=2\))

例如,变量 “性别” 有两个类别:

  • 我们只需要创建 1 个虚拟变量(因为 \(2-1=1\))。
  • 我们定义:
    • \(D_{\text{female}} = 1\) 如果性别为女性
    • \(D_{\text{female}} = 0\) 如果性别为男性(作为基准组)
观测对象 性别 虚拟变量 (\(D_{\text{female}}\))
张三 0
李四 1
王五 0

在模型中,系数 \(\beta_{\text{female}}\) 就代表了女性男性(基准组)在因变量上的平均差异。

示例2:多分类变量 (\(k>2\))

例如,变量 “季节” 有四个类别:春、夏、秋、冬

  • 我们需要创建 3 个虚拟变量(因为 \(4-1=3\))。
  • 我们选择 “春季” 作为基准组。
观测对象 季节 \(D_{\text{夏季}}\) \(D_{\text{秋季}}\) \(D_{\text{冬季}}\)
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

可以看到:

  • 当所有虚拟变量都为 0 时,就代表了基准组“春季”。
  • 每个虚拟变量都是一个“开关”,表示该观测对象是否属于那个特定的季节。

8.3.3 在回归模型中的应用与解释

假设我们想用“季节”来预测“冰淇淋销量”。我们的模型是:

\[\text{销量} = \beta_0 + \beta_1 \cdot D_{\text{夏季}} + \beta_2 \cdot D_{\text{秋季}} + \beta_3 \cdot D_{\text{冬季}} + \varepsilon \]

  • \(\beta_0\) (截距):代表了基准组“春季”的平均冰淇淋销量。
  • \(\beta_1\) (\(D_{\text{夏季}}\) 的系数):代表了“夏季”的平均销量与“春季”平均销量的差值
  • \(\beta_2\) (\(D_{\text{秋季}}\) 的系数):代表了“秋季”的平均销量与“春季”平均销量的差值
  • \(\beta_3\) (\(D_{\text{冬季}}\) 的系数):代表了“冬季”的平均销量与“春季”平均销量的差值

假设检验(例如,对 \(\beta_1\) 进行 \(t\) 检验)就是在检验“夏季的销量是否与春季有显著差异”。

8.3.4 虚拟变量陷阱

这正是之前关于多重共线性的讨论中提到的。虚拟变量陷阱是指:如果你为一个有 \(k\) 个类别的分类变量创建了 \(k\) 个虚拟变量,就会导致完全多重共线性

在上面的季节例子中,如果你创建了第四个变量 \(D_{\text{春季}}\),那么对于任何一个观测对象,都有

\[D_{\text{春季}} + D_{\text{夏季}} + D_{\text{秋季}} + D_{\text{冬季}} = 1 \]

这意味着其中一个变量可以被其他变量完美地线性预测,导致 \((\mathbf{X}'\mathbf{X})\) 矩阵不可逆,无法计算出唯一的回归系数。

解决方法:始终遵循 \(k\)个类别,只用\((k-1)\)个虚拟变量” 的原则,并省略一个类别作为基准组。

8.4 数据不足或有偏

  • 有限的数据可用性会放大相关性,尤其是在抽样方法未能捕捉到变异性的横截面研究中。

这些原因并非互斥,并且可能在复杂模型中复合,凸显了在建模阶段仔细进行变量选择的必要性。

9. 多元共线性的后果

虽然多元共线性不会使OLS估计产生偏差(它们仍然是无偏且一致的),但它会显著降低其精确性和可解释性。其主要机制是通过估计量的方差-协方差矩阵的膨胀:在OLS公式中,协方差矩阵为 \(\sigma^2 (\mathbf{X}'\mathbf{X})^{-1}\),其中高相关性使得 \(\mathbf{X}'\mathbf{X}\) 接近奇异矩阵,导致方差变大。

具体后果包括:

9.1 不稳定和不精确的系数估计

  • 系数对数据的微小扰动变得高度敏感,可能意外地改变符号或幅度。例如,在一个预测幸福感的模型中,像“看电视”和“吃薯片”这样的相关变量会模糊哪一个才是真正的驱动因素。

9.2 数值不稳定性

  • 在非完全共线性的情况下,计算涉及除以接近零的值,放大了有限精度算术中的舍入误差。在极端完全共线性的情况下,矩阵不可逆,导致无法进行OLS计算。

9.3 应用中的模型可靠性

  • 在金融等领域,它可能导致不可靠的投资策略,因为共线性指标提供了冗余信号而没有新的见解。然而,模型整体的预测准确性可能保持不变,这使得在纯预测场景中问题不大,但在解释性模型中则至关重要。

在计量经济学背景下,这些效应在横截面数据(例如,包含面积和房间数的房价数据)和时间序列数据中都很明显,其中趋势会放大问题。

10. 检测方法

在处理多元共线性之前,必须先识别它。常用工具包括:

10.1 方差膨胀因子(VIF)

量化一个变量的方差因相关性而被放大的程度。

\[\text{VIF}_k = \frac{1}{1 - R_k^2} \]

其中 \(R_k^2\) 是将第 \(k\) 个变量对其他所有变量进行回归得到的 \(R^2\)

  • 阈值\(\text{VIF} > 10\) 表示存在问题;无穷大则表示完全共线性。

VIF 的计算步骤

VIF的计算是一个两步过程:首先为每一个自变量进行一次辅助回归,然后利用该辅助回归的结果计算VIF。

假设我们有一个多元回归模型:

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon \]

我们想要计算其中一个自变量(例如 \(X_i\))的 VIF。

步骤一:执行辅助回归

将我们关心的自变量 \(X_i\) 作为因变量,将模型中所有其他自变量作为预测变量,进行一次线性回归。

辅助回归模型

\[X_i = \alpha_0 + \alpha_1 X_1 + \alpha_2 X_2 + \dots + \alpha_{i-1} X_{i-1} + \alpha_{i+1} X_{i+1} + \dots + \alpha_k X_k + \varepsilon \]

这个模型的意思是:“我们能否用模型中的其他变量来预测 \(X_i\)?”

步骤二:计算辅助回归的 \(R^2\)

从上面的辅助回归中,我们得到决定系数 \(R^2_i\)。这个 \(R^2_i\) 表示的是 \(X_i\) 的变异能被其他自变量共同解释的比例。

步骤三:计算 VIF

使用步骤二中得到的 \(R^2_i\),通过以下公式计算 \(X_i\) 的 VIF:

\[\text{VIF}_i = \frac{1}{1 - R^2_i} \]

10.2 相关矩阵

两两相关系数 \(>0.8\text{--}0.9\) 标志潜在问题,尽管 VIF 在检测群体效应方面更优。在多元共线性的语境中,“群体效应”指的是多个自变量联合起来,作为一个“群体”或“组合”,对因变量产生显著影响,但模型很难区分出这个群体中每一个单独变量的独立贡献。

相关矩阵的计算过程

相关矩阵是用于评估多个变量之间两两线性相关程度的常用工具。它可以帮助我们快速识别数据中可能存在多重共线性的变量对。

  • 目的:量化两个连续变量之间的线性关系强度和方向。
  • 范围:相关系数的值域在 \(-1\)\(+1\) 之间。
  • 解读
    • \(+1\):表示完全正相关。一个变量增加,另一个变量也严格按比例增加。
    • \(-1\):表示完全负相关。一个变量增加,另一个变量严格按比例减少。
    • \(0\):表示没有线性相关。两个变量的变化模式没有线性关系。
    • 接近 \(\pm0.8\sim\pm1.0\):表示强(正/负)相关,可能存在共线性问题。

当我们有多个变量(例如,\(X\), \(Y\), \(Z\))时,相关矩阵就是一个方阵,其中每个元素 \((i, j)\) 表示第 \(i\) 个变量与第 \(j\) 个变量之间的相关系数。

11. 解决方案与补救措施

缓解多元共线性涉及减少变量冗余,同时保持模型完整性。没有通用的单一解决方案,选择取决于优先考虑可解释性还是预测准确性。

根据要求,两种主要方法是:

11.1 移除相关变量

  • 通过 VIF 或相关性识别并剔除其中一个变量(例如,如果年龄与经验高度相关,则剔除年龄)。
  • 这简化了模型,但如果被剔除的因素很重要,则可能引入遗漏变量偏差。
  • 实践中,通常迭代地移除 VIF 最高的变量,直到满足阈值。
  • 移除相关变量通常会提高模型的可解释性,但可能会降低模型的预测准确性。

11.2 岭回归

11.2.1 岭回归的解决方案:引入惩罚项

岭回归是一种正则化技术,它通过修改OLS的目标函数来解决上述问题。

  • OLS的目标:最小化 残差平方和

    \[\text{Minimize: } \sum (y_i - \hat{y}_i)^2 \]

  • 岭回归的目标:最小化 (残差平方和 + 系数大小的惩罚项)

    \[\text{Minimize: } \sum (y_i - \hat{y}_i)^2 + \lambda \cdot \sum (\beta_j^2) \]

    关键解释

    • \(\sum (y_i - \hat{y}_i)^2\):这部分和OLS一样,追求模型的拟合优度。
    • \(\lambda \cdot \sum (\beta_j^2)\):这是岭回归的核心,称为L2惩罚项。它是所有系数平方和乘以一个常数 \(\lambda\)
    • \(\lambda\) (lambda):是一个非负的调优参数,由使用者决定。它控制着惩罚的力度。

11.2.2 岭回归如何具体缓解多元共线性?

这个看似简单的惩罚项,通过以下机制巧妙地解决了多元共线性问题:

1. 稳定矩阵求逆过程

岭回归的系数估计公式为:

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}'\mathbf{y} \]

与OLS的公式 \((\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{y}\) 相比,它在 \(\mathbf{X}'\mathbf{X}\) 矩阵上加了一个 \(\lambda \mathbf{I}\)\(\mathbf{I}\) 是单位矩阵)。这个操作相当于给 \(\mathbf{X}'\mathbf{X}\) 矩阵的主对角线上的所有元素都加上了一个常数 \(\lambda\)

  • 作用:如果 \(\mathbf{X}'\mathbf{X}\) 是近乎奇异的(行列式接近零),加上 \(\lambda\) 后,新矩阵 \((\mathbf{X}'\mathbf{X} + \lambda \mathbf{I})\) 的行列式就不再接近零了,从而使其远离奇异状态,变得可逆且稳定
  • 结果:这个稳定的求逆过程直接导致了系数估计的方差显著减小。系数不再因为数据的微小波动而剧烈变化。
2. 收缩系数

惩罚项 \(\lambda \cdot \sum (\beta_j^2)\) 意味着,如果系数 \(\beta_j\) 的绝对值很大,惩罚成本就会很高。因此,为了最小化整体目标函数,岭回归会倾向于将系数向零收缩

  • 对共线变量的影响:当两个变量 \(X_1\)\(X_2\) 高度相关时,OLS可能会给其中一个分配一个很大的正系数,另一个分配一个很大的负系数,从而通过这种"此消彼长"的方式拟合数据,但这导致了不稳定性。岭回归通过惩罚大系数,会强制将这些共线变量的系数收缩到一个更合理、更稳定的区域。它们可能都会得到一个中等大小的正系数,而不是一个巨大正系数和一个巨大负系数。
3. 偏差-方差权衡

岭回归并非没有代价。它的核心是一种偏差-方差权衡

  • OLS估计:是无偏的(在满足经典假设下),但存在高方差。
  • 岭回归估计:是有偏的。通过引入惩罚项,它故意地使系数估计偏离其"真实"值。
  • 收益:作为交换,它换来了方差的大幅降低

在存在严重多元共线性的情况下,方差的减少量通常远远超过引入的微小偏差。最终结果是,岭回归得到的系数估计虽然不再是无偏的,但其均方误差更小,预测新数据的能力通常更强

11.2.3 岭回归的主要作用总结

作用 具体描述 受益场景
1. 缓解多元共线性 通过稳定矩阵求逆和收缩系数,直接解决共线性导致的系数高方差和不稳定问题。 自变量高度相关的任何回归分析。
2. 作为一种变量筛选的辅助工具 虽然岭回归不会将任何系数精确设置为零,但我们可以通过观察系数的大小来进行判断。收缩后系数接近零的变量可以被视为影响力较小的变量。 在特征选择中提供参考,但不如Lasso回归(L1惩罚)那样能直接进行变量筛选。

11.2.4 如何使用岭回归及注意事项

  1. 标准化数据至关重要的一步! 因为惩罚项是基于系数的大小。如果自变量单位不同(如年龄和收入),系数大小没有可比性。必须先将所有自变量标准化(均值为0,标准差为1),否则惩罚会对尺度大的变量不公平。
  2. 选择调优参数 \(\lambda\)
    • \(\lambda = 0\):岭回归退化为OLS。
    • \(\lambda \to \infty\):所有系数都被收缩到零。
    • 需要选择一个最佳的 \(\lambda\) 值,通常通过交叉验证来完成。我们会尝试一系列 \(\lambda\) 值,选择那个使得交叉验证误差最小的一个。
  3. 解释系数:需要认识到岭回归的系数是有偏估计。因此,对其绝对值和统计显著性的解释需要格外谨慎。它的主要优势在于提高预测稳定性和准确性,而非提供无偏的因果解释。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/958588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年热门的艺术楼梯制作高评价厂家推荐榜

2025年热门的艺术楼梯制作高评价厂家推荐榜 在现代建筑与室内设计中,楼梯不仅是连接空间的工具,更是彰显艺术与品位的焦点。一部精心设计的艺术楼梯,能够提升整体空间的格调,成为视觉中心。随着人们对个性化与高品…

详细介绍:【Leetcode】随笔

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

界面控件DevExpress WPF v25.1新版亮点:数据管理功能全新升级

界面控件DevExpress WPF v25.1新版亮点:数据管理功能全新升级DevExpress WPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程…

vue vant适配 - 东方不败-

npm install postcss-px-to-viewport@1.1.1 -D module.exports = { plugins: { postcss-px-to-viewport: { // 标准屏宽 viewportWidth: 375 } } }

Linux内核开发_3_busybox

Linux内核开发_3_busyboxBusybox简介busybox是一个开源项目,集合了Linux的常用命令,且体积非常小,一般被用于嵌入式Linux上。 busybox在编写初期的思想就是简洁,小巧,强悍,并且设计时从系统资源考虑,节省内存,…

React系列教程:9. 空包裹

函数组件 // src/components/Hello1.jsximport { useState } from reactfunction Hello1 (props) {const [ hello1, setHello1 ] = useState(world1)setTimeout(() => {setHello1(world2)}, 2000)return ({/* 两个子…

2025年克拉玛依旅游团权威推荐榜单:新疆旅游/新疆自驾游/新疆赛里木湖旅游线路服务商精选

随着新疆旅游基础设施的完善和旅游资源深度开发,克拉玛依作为石油工业与自然奇观完美结合的目的地,正迎来旅游业的快速增长。根据旅游行业数据显示,2024年克拉玛依市接待游客量同比增长18.5%,其中乌尔禾魔鬼城、黑…

2025年质量好的油压机厂家最新推荐权威榜

2025年质量好的油压机厂家最新推荐权威榜 在工业制造领域,油压机作为核心设备之一,广泛应用于汽车、电子、机械加工等行业。随着技术升级与市场需求的变化,选择一家质量可靠、技术先进的油压机厂家至关重要。本文基…

整体设计 逻辑实用的系统工具 之17 Source 容器(Docker)承载 C/P/D 三式的完整设计与双闭环验证 之1

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

消防监管指挥平台

一、政策驱动:全国消防智慧化升级的号角已吹响 近年来,各级政府密集出台政策推动消防监管数字化。云南提出 “消防安全治理三年计划” ,要求将消防站点、车道等纳入国土空间规划,并建立 跨部门综合监管机制 ,运用…

2025年口碑好的无极绳绞车轮组厂家最新推荐排行榜

2025年口碑好的无极绳绞车轮组厂家最新推荐排行榜 随着矿山、煤矿等行业的快速发展,无极绳绞车轮组作为重要的牵引设备,市场需求持续增长。选择一家技术先进、质量可靠、服务完善的厂家至关重要。本文根据市场调研、…

c#学习_delegate

变量(数据) 以变量名所对应的内存地址为起点的一段内存,这段内存地址中存储的值就是数据;在C#中,用户定义的数据类型,需要先创建对应的数据类型模板,用来确认此数据类型在内存中需要多大的内存空间,再创建此数…

2025年评价高的数据中心展观众登记

2025年评价高的数据中心展观众登记指南 随着全球数字化转型加速,数据中心作为算力基础设施的核心载体,其绿色化、智能化、协同化发展已成为行业焦点。为帮助专业观众高效锁定高价值展会资源,本文基于真实参展商口碑…

心情日记 | 而一切终归于平静

心情日记 | 而一切终归于平静 引 今天看到一个博客,没想到博主是一个学音乐的(看博客内容猜测是) 向那样的自建博客,少不了折腾,也因此拥有自建博客的,一般程序猿居多。 那个博客很“自然”。对随心所欲的去记录…

Ubuntu取消sudo密码验证完整配置

对于正在ubutu开发的人来,每次执行指令都要密码,时间长了会有些狗血 Ubuntu取消sudo密码验证完整配置安全警告:取消sudo密码会降低系统安全性,仅限测试环境使用!# 方法1:完全免密码(高风险) echo yourusername…

2025 橡塑保温源头厂家最新推荐排行榜:绿色环保 + AAA 信用认证企业权威甄选指南橡塑保温/绝热材料/隔热材料保温板厂家推荐

引言 橡塑保温材料在建筑节能、新能源、工业等领域的应用需求持续攀升,但市场产品质量差异显著,导热系数不达标、环保性能不合格等问题频发。为精准筛选优质企业,本次榜单由行业协会联合测评机构重磅发布,基于 3 大…

2025年上海智能运维智算中心展会议论坛

2025年上海智能运维智算中心展会议论坛:五大顶尖参展商权威推荐指南 随着全球数字化进程加速,数据中心与智算中心作为算力基础设施的核心载体,正迎来绿色化、智能化、协同化的产业升级浪潮。2026年6月3日-5日,第1…

搭建AI资讯早报:AiOnly全球大模型服务+N8N自动化工作流实战

​ 一、AiOnly 平台介绍 AiOnly 是一个专业的一站式大模型 API 聚合平台,集成了 GPT、Claude、Gemini、DeepSeek、Qwen 等数十个全球顶尖 AI 模型。平台通过统一的 RESTful API 接口,为用户提供涵盖文本生成、图像创…

2025年靠谱的新中式香氛五金厂家最新权威实力榜

2025年靠谱的新中式香氛五金厂家最新权威实力榜在当今家居装饰与五金制造领域,新中式风格与智能家居的融合正成为市场新宠。香氛五金作为这一趋势下的创新品类,将传统五金的功能性与现代家居的感官体验完美结合,为消…

2025年新疆电线电缆厂家权威推荐榜单:耐火电缆/高温电缆/特种电缆源头厂家精选

随着新疆地区基础设施建设和能源开发的持续推进,电线电缆行业正迎来专业化、高品质化的发展趋势。根据行业数据显示,2024年新疆地区电线电缆市场需求规模达到约87亿元,同比增长8.5%,其中电力电缆、特种电缆等产品需…