机器学习
不要事前决定变量关系,关键是谁也不知道啊,机器学习学习的模型(那也不是真实的关系啊)
这就是自然学科的好处:只要不断的优化这个未知的东西(函数),然后在数据上(场景)表现好就可以了,我也接受这种观念。
但是社科不一样了:要事前的决定形式(变量是线性关系,非线性关系,二次关系等等),然后根据数据估计参数,得到因果(说实话,我很质疑的)。
在回归分析中,存在系数是线性的假设(只能包括系数的一次项, β 1 \beta1 β1 β 2 \beta2 β2, 不能是 β 2 \beta^2 β2 e β e^{\beta} eβ)。然后是模型的设定(假设变量间是线性关系 y = β x y=\beta x y=βx, y = β x 2 y=\beta x^2 y=βx2).实际中一般就是指包括一次项,二次项。别的没啥意义解读了。
E ( Y ∣ X ) = f ( x ) E(Y|X)=f(x) E(Y∣X)=f(x) 条件期望,
那 f ( x ) f(x) f(x)是什么形式,一次性,多项,非线性,谁也不知道啊。但是回归分析中,要求系数是线性的,变量间的关系(一次,多项式,可以回归分析),如果是非线性就不是回归分析了。
那我就开始研究,机器学习因果推断,异质性,非线性关系,哈哈哈哈,机器学习好用啊,虽然本身没有任何意义,认为赋予一个价值解读,
回归模型的要求
在回归分析中,回归系数要求是线性的这一说法通常与回归模型的线性假设相关。这里的“线性”需从不同角度理解,具体含义和要求如下:
一、回归模型的线性假设:系数线性 vs. 变量线性
1. 系数线性(核心要求)
- 定义:回归模型对系数(参数)是线性的,即模型表达式中系数必须以一次项形式出现,不能包含系数的平方、乘积、对数等非线性变换。
- 数学表达式:
对于多元线性回归模型,形式为:
[
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon
]
其中,(\beta_0, \beta_1, \dots, \beta_k) 是待估计的系数,必须为线性项(无 (\beta^2)、(\beta_1\beta_2) 等形式)。 - 意义:
系数线性是线性回归模型的核心假设,只有满足这一点,才能用最小二乘法(OLS)等线性估计方法求解系数,保证估计量的无偏性和有效性。
2. 变量线性(非必须,可通过变换满足)
这里:主要是指因变量和自变量的关系是线性关系,自变量间的关系不管
- 定义:变量之间的关系可以是线性或非线性的,但非线性关系可通过变量变换转化为系数线性的模型。
- 例1:若 (Y) 与 (X) 存在二次关系 (Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon),可令 (X_2 = X^2),转化为线性模型 (Y = \beta_0 + \beta_1 X + \beta_2 X_2 + \epsilon)。
- 例2:对数线性模型 (Y = \beta_0 + \beta_1 \ln X + \epsilon) 中,(\ln X) 是变量变换后的线性项,系数 (\beta_1) 仍为线性。
- 关键:
模型对变量可以是非线性的,但对系数必须是线性的。变量非线性可通过变换处理,而系数非线性会导致模型不再属于线性回归范畴(需用非线性回归方法)。
二、为何回归系数必须是线性的?
1. 线性估计方法的前提
- 最小二乘法(OLS)、极大似然估计等线性回归的核心方法,均基于系数线性假设推导而来。若系数非线性,这些方法不再适用,需用迭代法(如牛顿迭代法)求解,计算复杂度大幅增加。
2. 线性模型的可解释性
- 线性系数表示自变量对因变量的边际效应(如 (\beta_1) 表示 (X_1) 每增加1单位,(Y) 的平均变化量)。若系数非线性(如 (\beta_1^2)),边际效应难以直观解释。
3. 统计推断的基础
- 系数线性假设下,才能对系数进行 (t) 检验、(F) 检验,构建置信区间,以及满足高斯-马尔可夫定理(OLS估计量的最优线性无偏性)。
三、常见误区与注意事项
1. 误区:线性模型不能处理非线性关系
- 澄清:线性模型可通过变量变换(如对数、平方、交互项等)处理非线性关系,只要变换后的模型对系数是线性的即可。
- 例:交互项模型 (Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1 X_2 + \epsilon) 中,(X_1 X_2) 是变量的非线性组合,但系数 (\beta_3) 是线性的,因此仍属于线性模型。
2. 注意:系数非线性的模型
- 若模型中系数本身存在非线性(如 (Y = \beta_0 + e^{\beta_1 X} + \epsilon)),则属于非线性回归模型,需使用非线性估计方法(如非线性最小二乘法),且无法保证估计量的优良性质(如无偏性)。
四、总结
要点 | 说明 |
---|---|
核心要求 | 回归模型必须对系数线性,即系数以一次项形式出现,不包含平方、乘积等非线性形式。 |
变量处理 | 变量间可存在非线性关系,通过变量变换(如对数、平方)转化为系数线性的模型。 |
方法适用性 | 系数线性时可用OLS等线性方法;系数非线性需用非线性回归,计算复杂且推断受限。 |
可解释性 | 线性系数直接表示边际效应,非线性系数难以直观解释。 |
结论:回归系数的线性性是线性回归模型的基石,它保证了模型的可估计性、可解释性和统计推断的可靠性。变量间的非线性关系可通过合理变换解决,但系数必须保持线性。
机器学习应用
SHap可解释模型
双重机器学习
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 February 2018, Pages C1–C68, https://doi.org/10.1111/ectj.12097