广州黄埔区做网站培训机构建设官网公司地址
news/
2025/10/8 19:05:31/
文章来源:
广州黄埔区做网站培训机构,建设官网公司地址,三类安全员证查询系统,推荐购物网站建设文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释八、对于定性变量的处理——虚拟变量XXX九、下面来看一个实例十、扰动项需要满足的条件十一、异方差十二、多重共线性十三、逐步回…
文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释八、对于定性变量的处理——虚拟变量XXX九、下面来看一个实例十、扰动项需要满足的条件十一、异方差十二、多重共线性十三、逐步回归十四、总结一、综述
无论是什么回归模型它们的基本任务都是通过研究自变量 xxx 和因变量 yyy 的相关关系从而形成能够解释 yyy 的变化的方法进而能够通过自变量 xxx 去预测因变量 yyy 。 回归分析的基本任务
变量选择确定重要变量判断是正相关还是负相关估计回归系数
二、常见的回归分析
常见的回归分析有{线性回归0−1回归定序回归计数回归生存回归\left\{ \begin{aligned} 线性回归 \\ 0 - 1回归 \\ 定序回归 \\ 计数回归 \\ 生存回归 \end{aligned} \right.⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧线性回归0−1回归定序回归计数回归生存回归文章只从线性回归的角度来阐述线性回归分析用于解决问题的策略和步骤。它们的区别是因为因变量 yyy 的不同而引起的。
因变量 yyy线性回归yyy 为连续型的数值变量例如家庭收入逐年增加⋯\cdots⋯0 - 1回归yyy 的结果可以抽象为0或者1类似于计算机中的二进制0和1例如喜欢和不喜欢⋯\cdots⋯定序回归yyy 为表示等级或者程度的变量具有一定的顺序大小⋯\cdots⋯计数回归yyy 为计数变量例如抛硬币次数的增加⋯\cdots⋯生存回归yyy 为阶段的数据例如研究某一因素对于年龄的影响便可以截取一个年龄段满足该年龄段的人进行计数即可
三、对于相关性的理解
相关性 ≠\neq 因果性 即不能从相关性的结果分析中让两个变脸拥有绝对的因果关系。
四、一元线性回归模型
假设 xxx 是自变量yyy 是因变量且满足如下线性关系yiβ0β1xiμiy_i \beta_0 \beta_1x_i \mu_iyiβ0β1xiμi β0\beta_0β0 和 β1\beta_1β1 为回归系数μi\mu_iμi 为无法观测的且满足一定条件的扰动项$
令预测值 yi^β0^β1^xi\hat{y_i} \hat{\beta_0} \hat{\beta_1}x_iyi^β0^β1^xi
其中 β0^,β1^argβ0,β1min(∑i1n(yi−yi^)2)argβ0,β1min(∑i1n(yi−β0^−βi^xi)2)\hat{\beta_0}, \hat{\beta_1} arg_{\beta_0, \beta_1}min(\sum_{i1}^{n}(y_i - \hat{y_i})^2) \\ \\ arg_{\beta_0, \beta_1}min(\sum_{i1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_i}x_i)^2)β0^,β1^argβ0,β1min(∑i1n(yi−yi^)2)argβ0,β1min(∑i1n(yi−β0^−βi^xi)2)
β0^,β1^argβ0,β1min(∑i1n(μi^)2)\hat{\beta_0}, \hat{\beta_1} arg_{\beta_0, \beta_1}min(\sum_{i1}^{n}(\hat{\mu_i})^2)β0^,β1^argβ0,β1min(∑i1n(μi^)2)
五、对于回归系数的解释
yiβ0β1x1iβ2x2iμi,β0和β1为回归系数y_i \beta_0 \beta_1x_{1i} \beta_2x_{2i} \mu_i,\beta_0 \text{和} \beta_1 \text{为回归系数}yiβ0β1x1iβ2x2iμi,β0和β1为回归系数 β0\beta_0β0在 x1x_1x1 和 x2x_2x2 都为0时yyy 的平均值为 β0\beta_0β0 β1\beta_1β1在保持其他变量不变的情况下x1ix_{1i}x1i 每增加一个单位yyy 的平均值增加 β0\beta_0β0 β2\beta_2β2在保持其他变量不变的情况下 x2ix_{2i}x2i 每增加一个单位yyy 的平均值增加 β1\beta_1β1 注意每引入一个自变量对于每个自变量前面的回归系数影响都是非常大的。因此在求回归方程的时候尽量不要遗漏变量否则会导致内生性的问题。
六、内生性
由于 μ\muμ 是一个满足条件但却无法观测的扰动项因此 μ\muμ 和自变量们是否相关会导致回归系数的准确与否。
若 μ\muμ 与自变量们均不相关则称该回归模型具有外生性。若 μ\muμ 与自变量们相关则称该回归模型具有内生性。
由于要求 μ\muμ 与自变量们都不相关此条件要求太强。因此我们可以将方程中的自变量分为核心变量和控制变量两类顾名思义核心变量最需要进行估计的变量控制变量对变量本身无太大兴趣但将之加入方程是为了避免内生性。 在实际应用中我们只需要保持核心变量与 μ\muμ 不相关即可
七、四类线性模型回归系数的解释
在平常的模型分析中我们也可以通过代换将取对数的变量做代换同样可以达到线性的目的。 一元线性回归yabxμy a bx \muyabxμ xxx 每增加一个单位yyy 平均变化 bbb 个单位。 双对数模型lnyablnxμ\ln y a b\ln x \mulnyablnxμ xxx 每增加 1% yyy 平均变化 b% 半对数模型yablnxμy a b\ln x \muyablnxμ xxx 每增加 1% yyy 平均变化 b100\frac{b}{100}100b 个单位。 半对数模型lnyabxμ\ln y a bx \mulnyabxμ xxx 每增加一个单位yyy 平均变化 (100b)(100b)(100b)%
八、对于定性变量的处理——虚拟变量XXX
在自变量中如果有定性的变量例如性别地区等等我们在回归的过程中可以将它们作为虚拟变量来处理 例如我们要研究性别对于工资的影响 此时可以建立多元线性回归模型yiβ0δ0Femaleiβ1x1iβ2x2i⋯βkxkiμiy_i \beta_0 \delta_0Female_i \beta_1x_{1i} \beta_2x_{2i} \cdots \beta_kx_{ki} \mu_iyiβ0δ0Femaleiβ1x1iβ2x2i⋯βkxkiμi Femalei1Female_i 1Femalei1 表示第 iii 个样本为女性Femalei0Female_i 0Femalei0 表示第 iii 个样本为男性。 同时这里面的核心解释变量即为FemaleFemaleFemale控制变量为xm(m1,2,⋯,k)x_m(m 1, 2, \cdots, k)xm(m1,2,⋯,k)
九、下面来看一个实例
某电商平台846条奶粉的销售信息如下每条信息由11个之变组成。其中评价量可以侧面反映顾客对产品的关注度。 完成下列问题
以评价量为因变量分析其他变量和评价量之间的关系以评价量为因变量研究影响评价量的重要因素。
问题一
在 StataStataStata 中调用tabulate 配方,gen(A)等将定性变量生成为虚拟变量。对所有变量进行回归reg 评价量 团购价元 商品毛重kg A1-G4得到的结果为 正如图中所示在前一部分的表格中我们首先需要关注的就是 ProbFProb FProbF 这一栏判断我们所使用的模型是否有意义。 同时R−squaredR-squaredR−squared 和 AdjR−squaredAdj R-squaredAdjR−squared 表示的是拟合优度以及调整后的拟合优度大小。 这张表表示的就是回归的结果。需要关注的有第一列Coef.表示回归系数第四列P |t|表示 P 值大小。 在 95% 的置信水平下P 值必须要小于 0.05 才有意义。 注意由于完全多重共线性的影响Stata会自动将一组变量中的某个变量作为参考变脸表格中omitted的变量。因此一组变量如 F 组变量在 90% 的置信水平下我们可以解释为在其他变量不变的情况下F1 评价量平均要比 F2 高出14894.55。
问题二
基本思路利用标准化回归系数来解决。去除量纲的影响 标准化公式 y−yˉδ\frac{y - \bar{y}}{\delta}δy−yˉyˉ\bar{y}yˉ 表示平均值δ\deltaδ 表示标准差。标准化系数的绝对值越大说明对因变量的影响就越大只关注显著的回归系数在 StataStataStata 中调用reg 评价量 团购价元 商品毛重kg A1-G4,beta然后关注最后一列绝对值越大代表影响越大。
十、扰动项需要满足的条件
扰动项需要满足“同方差”和“无自相关”两个条件。
十一、异方差 异方差的检验 BP检验 在 StataStataStata 中调用命令estat hettest, rhs iid(回归结束之后)进行 BP 检验 原假设扰动项不存在异方差 P 值小于 0.05说明在 95% 的置信水平下拒绝原假设即认为扰动项存在异方差。怀特检验 在 StataStataStata 中调用命令eatat imtest, while(回归结束之后) 原假设扰动项不存在异方差 同样P 值小于 0.05因此也要拒绝原假设。即扰动项也存在异方差。 异方差的处理 使用OLS(普通最小二乘估计法) 稳健的标准误推荐 在 StataStataStata 中调用命令reg y x1...xk, robust 结果为 可以看出显著的变量相比于之前多了许多广义最小二乘法GLS GLS得出的结果不稳健也可能出现偶然性因此不做介绍。
十二、多重共线性 多重共线性的检验 多重共线性的检验可以使用方差膨胀因子 VIFVIFVIF. 假设有 kkk 个自变量那么第 mmm 个自变量的 VIFm11−R1−k/mVIF_m \frac{1}{1 - R_{1-k/m}}VIFm1−R1−k/m1 VIFm11−R1−k/mVIF_m \frac{1}{1 - R_{1-k/m}}VIFm1−R1−k/m1 表示将第 mmm 个自变量作为因变量对剩下的 k−1k - 1k−1 个自变量回归得到的拟合优度。 VIFVIFVIF 越大说明第 mmm 个变量和其他变量的相关性越大。 定义 VIFmax{VIF1,VIF2,VIF3,⋯,VIFm}VIF max\{VIF_1, VIF_2, VIF_3, \cdots, VIF_m\}VIFmax{VIF1,VIF2,VIF3,⋯,VIFm}若 VIF10VIF 10VIF10则认为模型具有严重的多重共线性。 在 StataStataStata 中调用命令estat vif(回归之后) 2.多重共线性的解决
十三、逐步回归 向前逐步回归 将自变量逐个引入模型每一个自变量加入后都要进行检验显著时才加入回归模型。缺点引入变量后原来显著的变量也可能变得不显著 在 StataStataStata 中调用命令stepwise regress y x1 x2...xk, pe(#1)其中#1表示显著水平0.05 向后逐步回归 先将所有的自变量放入模型之后再尝试将其中一个自变量从模型中删除看整个模型解释因变量是否有显著变化之后将最没有解释力的哪个自变量删除知道没有自变量符合删除条件为止。 在 StataStataStata 中调用命令stepwise regress y x1 x2...xk, pr(#2)其中#2也表示显著水平0.05
注意 1x1,x2,x3,⋯,xkx1, x2, x3, \cdots, xkx1,x2,x3,⋯,xk 之间不能有完全多重共线性 2可以在后面加上参数 b 和 r 即标准化回归系数和稳健标准误 3向前逐步回归和向后逐步回归的结果可能不同 4不要轻易使用逐步回归删除了变量会导致其他问题
十四、总结
使用多元线性回归时可以参考以下步骤
确定自变量和因变量对定性的变量生成虚拟变量异方差检验以及多重共线性检验并分别进行处理在 StataStataStata 中进行回归分析多元线性回归标准化回归逐步回归……得出结论
本文是看了课视频和PPT之后自己的总结有什么错误还望指出thx
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/931844.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!