网站开发网页制作薪资qq刷赞网站咋做
web/
2025/10/9 1:32:10/
文章来源:
网站开发网页制作薪资,qq刷赞网站咋做,wordpress 视频弹窗,关键词排名怎样第三十六课因子分析因子分析(FactorAnalysis)是主成分分析的推广#xff0c;它也是从研究相关矩阵内部的依赖关系出发#xff0c;把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。具体地说#xff0c;就是要找出某个问题中可直接测量的、具有…第三十六课因子分析因子分析(FactorAnalysis)是主成分分析的推广它也是从研究相关矩阵内部的依赖关系出发把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。具体地说就是要找出某个问题中可直接测量的、具有一定相关性的诸指标如何受少数几个在专业中有意义又不可直接测量到且相对独立的因子支配的规律从而可用诸指标的测定来间接确定诸因子的状态。一、何为因子分析因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。在这里我们把不可观察的潜在变量称为公共因子(commonfactor)。在研究样品时每个样品需要检测很多指标假设测得 个指标但是这 个指标可能受到 ( )个共同因素的影响再加上其他对这些指标有影响的因素。写成数学的形式就是(36.1)利用矩阵记号有(36.2)各个指标变量都受到 的影响因此 称为公共因子 称为因子载荷矩阵 是单变量 所特有的因子称为 的特殊因子(uniquefactor)。设 … 分别是均值为0方差为1的随机变量即 特殊因子 … 分别是均值为0方差为 …的随机变量即 各特殊因子之间及特殊因子与公共因子之间都是相互独立的即 及 。 是第 个变量在第个公共因子上的负荷从投影的角度看 就是 在坐标轴 上的投影。主成分分析的目标是降维而因子分析的目标是找出公共因素及特有的因素即公共因子与特殊因子。在主成分分析中残差通常是彼此相关的。在公因子分析中特殊因子起到残差的作用但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献否则它将是一个特殊因子。在开始提取公因子时为了简便还假定公因子彼此不相关且具有单位方差。在这种情况下向量的协方差矩阵Σ可以表示为(36.3)这里Ddiag( )diag表示对角矩阵。如果假定已将 标准化也就是说 的每一个分量的均值都为0方差都是1即 那么(36.4)记 则有(36.5)反映了公共因子f对 的影响称为公共因子f对 的“贡献”。 实际反映了变量对公共因子f的依赖程度。另一方面还可以考虑指定的一个公共因子 对各个变量 的影响。实际上 对各个变量 的影响可由 中第列的元素来描述那么(36.6)称为公共因子 对 的“贡献”。显然 越大 对 的影响就越大 成为衡量因子重要性的一个尺度。实际上(36.7)那么矩阵 的统计意义就非常清楚l 是 和 的相关系数l 是 对公共因子 的依赖程度l 是公共因子 对 的各个分量总的影响下面我们来看怎样求解因子载荷矩阵 。二、因子载荷矩阵的求解如果已知 协方差矩阵 和 可以很容易地求出 。根据式(36.3)有(36.8)记 则 是非负定矩阵。若记矩阵 的p个特征值 ≥ ≥…≥ … 0且m个非零特征值所对应的特征向量分别为 … 则 的谱分解式为(36.9)只要令(36.10)就可以求出因子载荷矩阵 。但在实际问题中我们并不知道 、 即不知道 已知的只是 个样品每个样品测得 个指标共有个数据样品数据见表36.1。为了建立公因子模型首先要估计因子载荷 和特殊因子方差。常用的参数估计方法有以下三种主成分法、主因子解法和极大似然法。1.主成分法主成分法求因子载荷矩阵 的具体求法如下首先从资料矩阵出发求出样品的协方差矩阵记之为 其特征值为 相应的单位正交特征向量为当最后 个特征值较小时则对 进行谱分解可以近似为(36.11)其中 ≥ ≥…≥ 0是协方差矩阵 相应的前 个较大特征值。先取 然后看是否接近对角阵。如果接近对角阵说明公共因子只要取一个就行了所有指标主要受到这一个公共因子的影响如果 不是近似对角阵就取然后看 是否接近对角阵如果接近对角阵就取两个公共因子否则再取…直到满足“要求”为止。这里的“要求”要视具体情况而定一般而言就像主成分分析一样直接取前个特征值和特征向量使得它们的特征值之和占全部特征值之和的85以上即可。此时特殊因子方差 。2.主因子解法主因子解法是主成分法的一种修正它是从资料矩阵出发求出样品的相关矩阵 设 则 。如果我们已知特殊因子方差的初始估计也就是已知了先验公因子方差的估计为 则约相关阵 为(36.12)计算 的特征值和特征向量取前 个正特征值 及相应特征向量为 则有近似分解式(36.13)其中 令 则 和 为因子模型的一个解这个解就称为主因子解。上面的计算是我们假设已知特殊因子方差的初始估计 那么特殊因子方差的初始估计值如何得到呢由于在实际中特殊因子方差(或公因子方差 )是未知的。以上得到的解是近似解。为了得到近似程度更好的解常常采用迭代主因子法。即利用上面得到的作为特殊方差的初始估计重复上述步骤直到解稳定为止。公因子方差(或称变量的共同度)常用的初始估计有下面三种方法l 取为第 个变量与其他所有变量的多重相关系数的平方(或者取 其中 是相关矩阵 的可逆矩阵的对角元素则 )l 取为第 个变量与其他所有变量相关系数绝对值的最大值l 取 1它等价于主成分解3.极大似然法假定公共因子f和特殊因子 服从正态分布那么我们可得到因子载荷阵和特殊方差的极大似然估计。设 维的 个观察向量为来自正态总体 的随机样本则样本似然函数为 和 的函数 。设 取 对于一组确定的随机样本 已经变成了确定已知的值则似然函数可以转换为 和 的函数 。接下来就可以求 和 取什么值使函数 能达到最大。为了保证得到唯一解可以附加唯一性条件对角阵再用迭代方法可求得极大似然估计的 和 的值。三、因子旋转因子模型被估计后还必须对得到的公因子进行解释。进行解释通常意味着对每个公共因子给出一种意义明确的名称它用来反映在预测每个可观察变量中这个公因子的重要性这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数显然这个因子的系数绝对值越大越重要而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法有时侯通过旋转公因子可以减少这种主观性也就是要使用非奇异的线性变换。设 维可观察变量 满足因子模型 。设 是任一正交阵则因子模型可改写为(36.14)其中 。根据我们前面假定每个公因子的均值为0即 每个公因子的方差为1即各特殊因子之间及特殊因子与公共因子之间都是相互独立的即 及 。可以证明(36.15)(36.16)(36.17)(36.18)因此 。这说明若 和 是一个因子解任给正交阵 和 也是因子解。由于正交阵是任给的因此因子解不是唯一的。在实际工作中为了使载荷矩阵有更好的实际意义在求出因子载荷矩阵 后再右乘一个正交阵这样就变换了因子载荷矩阵这种方法称为因子轴的正交旋转。我们知道一个所有系数接近0或±1的旋转模型矩阵比系数多数为0与±1之间的模型容易解释。因此大多数旋转方法都是试图最优化模型矩阵的函数。在初始因子提取后这些公因子是互不相关的。如果这些因子用正交变换(orthogonaltransformation)进行旋转旋转后的因子也是不相关的。如果因子用斜交变换(obliquetransformation)进行旋转则旋转后的因子变为相关的。但斜交旋转常常产生比正交旋转更有用的模型。旋转一组因子并不能改变这些因子的统计解释能力。如果两种旋转模型导出不同的解释这两种解释不能认为是矛盾的。倒不如说是看待相同事物的两种不同方法。从统计观点看不能说一些旋转比另一些旋转好。在统计意义上所有旋转都是一样的。因此在不同的旋转之间进行选择必须根据非统计观点。在多数应用中我们选择最容易解释的旋转模型。四、应注意的几个问题l 因子分析是主成分分析的推广它也是一种降维技术其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。l 因子模型在形式上与线性回归模型很相似但两者有着本质的区别回归模型中的自变量是可观测到的而因子模型中的各公因子是不可观测的隐变量。而且两个模型的参数意义很不相同。l 因子载荷矩阵不是唯一的利用这一点通过因子的旋转可以使得旋转后的因子有更鲜明的实际意义。l 因子载荷矩阵的元素及一些元素组合有很明确的统计意义。l 因子模型中常用的参数估计方法主要有主成分法主因子法和极大似然法。l 在实际应用中常从相关矩阵R出发进行因子模型分析。常用的因子得分估计方法有巴特莱特因子得分和汤姆森因子得分两种方法。五、Factor因子分析过程因子分析用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据表达一组相互关联的变量。通常情况下这些相关因素并不能直观观测这类分析通常需用因子分析完成。factor过程一般由下列语句控制proc factor data数据集 ;priors 公因子方差 ;var变量表;partial 变量表 ;freq 变量 ;weight 变量 ;by 变量 ;run ;1.procfactor语句的(1) 有关输出数据集选项l out输出数据集——创建一个输出数据集包括输入数据集中的全部数据和因子得分估计。l outstat输出数据集——用于存储因子分析的结果。这个结果中的部分内容可作为进一步因子分析的读入数据集。(2) 有关因子提取和公因子方差选项l method因子选择方法——包括principal(主成分法)prinit(迭代主因子法)usl(没有加权的最小二乘因子法)alpha(因子法或称harris法)ml(极大似然法)image(映象协方差阵的主成分法)pattern(从type选项的数据集中读入因子模型)、score(从type选项的数据集中读入得分系数)。常用方法为principal(主成分法)、ml(极大似然法)和prinit(迭代主因子法)。l heywood——公因子方差大于1时令其为1并允许迭代继续执行下去。因为公因子方差是相关系数的平方我们要求它总是在0和1之间。这是公因子模型的数学性质决定的。尽管如此但在最终的公因子方差的迭代估计时有可能超过1。如果公因子方差等于1这种状况称为Heywood状况如果公因子方差大于1这种状况称为超-Heywood状况。在超-Heywood状况时因子解是无效的。l priors公因子方差的计算方法名——规定计算先验公因子方差估计的方法即给各变量的公因子方差 赋初值包括one(等于1.0)max(最大绝对相关系数 )smc(多元相关系数的平方)asmc(与多元相关系数的平方成比例但要适当调整使它们的和等于最大绝对相关)input(从data指定的数据集中按type指定类型读入第一个观察中的先验公因子方差估计)random(0与1之间的随机数)。(3) 有关规定因子个数及收敛准则的选项l nfactorsn——要求保留n个公因子否则只保留特征值大于1的那些公因子。l mineigenp——规定被保留因子的最小特征值。l proportionp——使用先验公因子方差估计对被保留的因子规定所占公共方差比例为这个p值。l convergep——当公因子方差的最大改变小于p时停止迭代。缺省值0.001。l maxitern——规定迭代的最大数。缺省值为30。(4) 有关旋转方法的选项l rotate因子转轴方式名——给出旋转方法。包括nonevarimaxquartimaxequamaxorthomaxhkpromaxprocrustes。常用的有varimax(正交的最大方差转轴法)、orthomax(由gamma指定权数的正交方差最大转轴法)和promax(在正交最大方差转轴的基础上进行斜交旋转)。l normkaiser | raw | weight | cov |none——为了对因子模型进行旋转规定模型矩阵中行的正规化方法。例如normkaiser表示使用Kaiser的正规化方法。normweight表示使用Cureton-Mulaik方法进行加权。normcov表示模型矩阵的这些行被重新标度为表示协方差而不是相关系数。normraw或none表示不进行正规化。l gammap——规定正交方差最大旋转的权数。l prerotate因子转轴方式名——规定预先旋转的方法。除了promax和procrustes的旋转方法任何其他的旋转方法都可使用。(5) 有关控制打印输出的选项l simple——打印输出包括简单统计数。l corr——打印输出相关阵和偏相关阵。l score——打印因子得分模型中的系数。l scree——打印特征值的屏幕图。l ev——打印输出特征向量。l residuals——打印残差相关阵和有关的偏相关阵。l nplotn——规定被作图的因子个数。l plot——在旋转之后画因子模型图。l preplot——在旋转之前画因子模型图。l msa——打印被所有其余变量控制的每对变量间的偏相关并抽样适当的Kaiser度量。l reorder——在打印输出时让各种因子矩阵的这些行重新排序。在第一个因子上具有最大绝对载荷的变量首先被输出然后按最大载荷到最小输出紧接着在第二个因子上输出具有最大绝对载荷的变量等等。2.priors语句为var变量设定公因子方差值在0.0和1.0之间。其值的设定应与var语句的变量相对应。例如procfactorpriors 0.7 0.8 0.9 varx y z其他语句的使用略。六、Factor score因子得分过程无论是初始因子模型还是旋转后的因子模型都是将指标表示为公因子的线性组合。在因子分析中还可以将公因子表示为指标的线性组合这样就可以从指标的观测值估计各个公因子的值这种值叫因子得分。它对样品的分类有实际意义。因子得分可由procscore过程完成。score过程一般由下列语句控制proc score data数据集 ;var 变量 ;run ;procscore语句选项包括out输出数据集存储因子得分结果等。将factor和score两个过程书写在同一个程序中可以提高分析的效率。七、实例分析例36.1 表36.1给出的数据是在洛杉矶十二个标准大都市居民统计地区中进行人口调查获得的。它有五个社会经济变量分别是人口总数(pop)、居民的教育程度或中等教育的年数(school )、雇佣人总数(employ)、各种服务行业的人数(services )和中等的房价(house )试作因子分析。表36.1 五个社会因素调查数据编号popschoolemployserviceshouse1570012.82500270250002100010.96001010000334008.810001090004380013.61700140250005400012.8160014025000682008.3260060120007120011.440010160008910011.5330060140009990012.534001801800010960013.73600390250001196009.63300801200012940011.44000100130001.建立数据文件程序如下data socecon;input pop school employservices house;title FIVE SOCIO-ECONOMICVARIABLES;cards;5700 12.8 2500 270 250001000 10.9 600 10 10000… … … … …9400 11.4 4000 100 13000;run;程序运行后生成一个scoecon数据集。2.调用因子分析factor过程菜单操作方法在SAS系统的主菜上选择Globals/SAS/Assist 进入Assist的主菜单再选择dataanalysis/multivar/factor analysis(因子分析)。编程方法如下proc factor datasocecon methodprin priorsone simple corrscore;run;proc factor datasocecon methodprin priorssmc msa screeresidual preplotrotatepromax reorder plot outstatfact_all ;run;proc factor datasocecon methodml heywood nfacotors1;run;proc factor datasocecon methodml heywood nfactors2;run;proc factor datasocecon methodml heywood nfactors3;run;程序说明共调用了5个factor因子分析过程。第1个过程为主成分因子分析第2个过程为主因子分析第3个过程为提取一个因子的最大似然分析第4个过程为提取二个因子的最大似然分析第5个过程为提取三个因子的最大似然分析。第1个factor因子分析过程由于选项methodprin和priorsone提取因子的方法采用主成分分析先验公因子方差估计被规定为1。选项simple和corr要求输出描述统计量和相关阵。选项score要求输出因子得分系数。第2个factor因子分析过程由于不是priorsone选项因此提取因子的方法采用主因子分析选项methodprin不起作用。选项priorssmc表示先验公因子方差估计被规定为每个变量与其他变量的多重相关系数的平方。选项msa表示控制所有其余变量的偏相关。选项scree表示输出所有特征值按从大到小排列的斜坡图用于选择因子个数。选项residual输出残差相关阵和有关的偏相关阵得到特殊因子方差的剩余相关。选项rotatepromax规定因子模型预先按正交最大方差的旋转再在正交最大方差转轴的基础上进行斜交的promax旋转。选项preplot表示绘制因子模型旋转前的散点图。选项plot表示绘制因子模型旋转后的散点图。选项reorder表示按因子上具有的载荷大小排列。选项outstatfact_all表示将因子分析的各种结果输出到fact_all数据集中。其他3个最大似然因子分析过程的说明我们在这里省略。第1和第2个factor因子分析过程运行后主要的结果见表36.2到表36.9。表 36.2 均值、标准差及相关矩阵Means and Standard Deviations from 12observations(每个变量的均值和标准差)POP SCHOOL EMPLOY SERVICES HOUSEMean 6241.66667 11.4416667 2333.33333 120.833333 17000Std Dev 3439.99427 1.78654483 1241.21153 114.927513 6367.53128Correlations(相关矩阵)POP SCHOOL EMPLOY SERVICES HOUSEPOP 1.00000 0.00975 0.97245 0.43887 0.02241SCHOOL 0.00975 1.00000 0.15428 0.69141 0.86307EMPLOY 0.97245 0.15428 1.00000 0.51472 0.12193SERVICES 0.43887 0.69141 0.51472 1.00000 0.77765HOUSE 0.02241 0.86307 0.12193 0.77765 1.00000表 36.3 主成分法的输出结果
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/89373.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!