个人网站名称要求工程综合承包
个人网站名称要求,工程综合承包,做一个平面网站的成本,wordpress 4.3 漏洞什么是无监督学习 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小 组#xff0c;以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb 需要将自己的房屋清单分组成不同的社区#xff0c;以便用户能更轻松地查阅这些清单。一个数据科学团队…什么是无监督学习 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小 组以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb 需要将自己的房屋清单分组成不同的社区以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量以便简化建模和降低文件大小。
我们可以怎样最有用地对其进行归纳和分组我们可以怎样以一种压缩格式有效地表征数据这都是无监督学习的目标之所以称之为无监督是因为这是从无标签的数据开始学习的。
无监督学习包含算法
聚类 K-meansK均值聚类 降维 PCA
K-Means原理
一个K-means的聚类效果图
1K-means聚类步骤
1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后重新计算出每个聚类的新中心点平均值4、如果计算得出的新中心点与原中心点一样那么结束否则重新进行第二步过程
以一张图来解释效果
K-Means APl
sklearn.cluster.KMeans(n_clusters8initk-means’) k-means聚类n_clusters开始的聚类中心数量init初始化方法默认为’k-means ’labels_默认标记的类型可以和真实值比较不是值比较
案例:k-means对Instacart Market用户聚类
1分析
1、降维之后的数据2、k-means聚类3、聚类结果显示
2代码
//取500个用户进行测试
cust data[:500]
km KMeans(n_clusters4)
km.fit(cust)
pre km.predict(cust)问题如何去评估聚类的效果呢
Kmeans性能评估指标
1轮廓系数 注对于每个点i为已聚类数据中的样本b_i为i到其它族群的所有样本的距离最小值a_i为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值。 2轮廓系数值分析
分析过程我们以一个蓝1点为例 1、计算出蓝1离本身族群所有点的距离的平均值a_i2、蓝1到其它两个族群的距离计算出平均值红平均绿平均取最小的那个距离作为b_i根据公式极端值考虑 如果b_ia_i那么公式结果趋近于1如果a_ib_i那么公式结果趋近于-1
3结论 如果b_ia_i趋近于1效果越好b_ia_i趋近于-1效果不好。轮廓系数的值是介 于[-1,1]越趋近于1代表内聚度和分离度都相对较优。
4轮廓系数API
sklearn.metrics.silhouette_score(X, labels) 计算所有样本的平均轮廓系数X特征值labels被聚类标记的目标值
5用户聚类结果评估
from sklearn.metrics import silhouette_score
silhouette_score(cust, pre)K-means总结
特点分析采用迭代式算法直观易懂并且非常实用缺点容易收敛到局部最优解多次聚类 注意聚类一般做在分类之前
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/86445.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!