目录
前言
知识储备
降维概述
算法原理
什么是PCA
PCA降维过程
PCA算法数学步骤
选择主成分个数(即k的值)
sklearn中参数的解释
数学模型
协方差
协方差矩阵
编辑 编辑
原理推导
编辑编辑编辑编辑 实际操作
主成分分析的计算方法
方法1. 协方差+特征值分解
方法2:奇异值分解
对比不同方法计算效率
物理意义
算法步骤
SPSSAU
主成分(pca)分析说明
1、信息浓缩
2、权重计算
3、 综合得分【综合竞争力】
疑难解惑
成分得分后用于回归分析?
综合得分如何使用?
提示出现奇异矩阵?
‘分析之前是否需要对数据进行标准化处理’?
综合得分如何计算得到的?
综合得分如何使用?
特征根值没有大于1可以吗?
载荷图?
主成分回归是什么意思?
为什么没有出现‘成份得分系数矩阵’,成分得分,综合得分?
累积方差解释率出现100%以上如何办?
主成分分析时,KMO值为null不存在?
解决办法
KMO值过低?
主成分回归是什么意思?
指标计算权重?
SPSSAU时,成分得分是标准化后的数据进行吗?
SPSSAU输出MSA指标?
保存因子得分或综合得分,但并没有保存?
代码实现
python
前言
主成分分析(即PCA,Principal Component Analysis)是一种常用的无监督降维方法。既然讨论降维,一定是假设原始数据的信息表示存在冗余,并且PCA可以甄别和摒弃这种冗余。
首先,数据在采集时很难保证各特征维度完全独立。比如,当我们想按照大小划分一些西瓜,却并不了解圆周率。我们切开西瓜,既测量了直径又测量了周长,但二者任取其一都不会损失信息。
其次,数据的某些特征在样本间存在很大分野,而有些特征则模棱两可。比如,我们想把西瓜分成沙瓤的和脆瓤的,测了水分、糖分、直径和颜色。众所周知,从水分和糖分上已经基本可以区分两种西瓜,那么直径、颜色这种高度重叠的特征就相对冗余。
主成分是什么?是指对原始数据进行投影变换得到的一系列正交向量。把原始数据的各个维度想象成坐标轴。一开始,这些坐标轴不仅没有相互垂直,而且有些轴上数据挤在一起。PCA要做的就是把这些轴重新规划一下,旋转、拉伸,把没必要的轴拍扁。
新的维度之间互不相关,都是数据信息的有效组成成分,按照数据点在轴上分布的方差降序排列,就是主成分。方差越大,就越容易划分,或者说信息量越大,那就越主要。<