江西省建设监督网站河南省建设厅建筑业信息网官网
江西省建设监督网站,河南省建设厅建筑业信息网官网,河南app开发公司,金融网站建设公司聚类与判别分析概述
基本概念
聚类分析 聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量#xff0c;以这些统计量为划分类型的依据#xff0c;把一些相似程度较大的样本#xff08;或指标#xff09;聚合为一类#xff0c;把另外一些彼此之间相似程…聚类与判别分析概述
基本概念
聚类分析 聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量以这些统计量为划分类型的依据把一些相似程度较大的样本或指标聚合为一类把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同聚类分析可分为对样本的聚类和对变量的聚类两种。 判别分析 判别分析是判别样本所属类型的一种统计方法。
样本间亲疏关系的度量
连续变量的样本间距离常用度量 主要方法有欧氏距离Euclidean Distance、欧氏平方距离Squared Euclidean Distance、切比雪夫距离Chebychev Distance、明可斯基距离Minkowski Distance、用户自定义距离Customize Distance、Pearson相关系数、夹角余弦Cosine等
顺序变量的样本间距离常用度量 常用的有 统计量Chi-square measure和 统计量Phi-square measure。
二者区别 不同之处在于判别分析是在已知研究对象分为若干类型或组别并已取得各种类型的一批已知样本的观测量数据的基础上根据某些准则建立判别式然后对未知类型的样本进行差别分析。
说明
聚类分析的目的是找到样本中数据的特点因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量则应先对变量进行标准化处理而后再进行聚类。变量间的关系度量模型与样本间相类似只不过一个用矩阵的行进行计算另一个用矩阵的列进行计算。
二阶聚类
基本概念 二阶聚类TwoStep Cluster也称为两步聚类是一个探索性的分析工具为揭示自然的分类或分组而设计是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法Hierarchical Algorithms,目前主要应用到数据挖掘Data Mining和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点
分类变量和连续变量均可以参与二阶聚类分析该过程可以自动确定分类数 可以高效率地分析大数据集用户可以自己定制用于运算的内存容量。
统计原理 两步法的功能非常强大而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外为了处理分类变量和连续变量它用似然距离测度它要求模型中的变量是独立的分类变量是多项式分布连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。
分析步骤
第1步 预聚类对每个观测变量考察一遍确定类中心。根据相近者为同一类的原则计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树CF。
第2步 正式聚类使用凝聚算法对特征树的叶节点分组凝聚算法可用来产生一个结果范围。 从中可以看出此算法采用的是两步二阶聚类共输入3个变量将所有个案聚成3类。聚类的平均轮廓值为0.6其范围值为-1.01.0值越大越好说明聚类质量较好。 因此数据类别打标
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/89670.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!