聚类(Clustering): K-means算法

聚类(Clustering): K-means算法

1.归类:
聚类(clustering)属于非监督学习(unsupervised learning)
无类别标记( class label)
在这里插入图片描述
3. K-means 算法:
3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一
3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。(k表示数据要分的类别的数量,比如上图分为三种类型,则k=3)

 3.3 算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果3.4 算法描述:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变(停止时机)/或达到预定的次数/分类变化小于预定值,则迭代结束,否则继续迭代。

3.5 算法流程:

      输入:k, data[n];( k:分的类别数,data[n]:样本数据)(1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];(通常用random随机挑选初始中心点)(2) 对于data[0]….data[n], 分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;(3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;(4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值。

Euclidean Distance欧几里得距离即求向量之间的距离
概括:1.(随机)定义三个中心点.2.找最近的点3.用均值定义新的中心点.4.继续23步直到中心点保持不变/达到预定的次数/分类变化小于预定值

4.流程图:
在这里插入图片描述
示例:
在这里插入图片描述
在这里插入图片描述
用矩阵计算距离:(不用Euclidean Distance方式计算)
在这里插入图片描述
上标0表示第0次迭代,上面一行4个值分别表示与(1,1)的距离值
在这里插入图片描述
上下两排中,1表示对应位置的该点归为当前相同类,0则表示归为不同类
Group1的中心点不变(因为只有A一个点)
Group2的中心点为:(求均值)
在这里插入图片描述

重新划分类别:
在这里插入图片描述
此时B点被分类为group1:
在这里插入图片描述
再分类:
在这里插入图片描述
此时,分类相比上次已经没有变化了:
在这里插入图片描述
所以迭代停止
在这里插入图片描述
聚类算法优缺点:
优点:速度快,简单
缺点:最终结果跟初始点选择相关度很大,容易陷入局部最优,需直到k值

聚类(Clustering): K-means算法应用

Python中code实例应用:

import numpy as np# Function: K Means
# -------------
# K-Means is an algorithm that takes in a dataset and a constant
# k and returns k centroids (which define clusters of data in the
# dataset which are similar to one another).def kmeans(X,k,maxIt): '''X:数据集;k:分类个数;maxIt:设置的循环次数'''numPoints,numDim = X.shape #X(类型为numpy array),行数(也可以叫做点数)和列数(维度)dataSet = np.zeros((numPoints,numDim+1)) #注意这里有两组括号dataSet[:, :-1] = X #dataset中除了最后一列的值都用X的值替代'''array中直接使用等号这种赋值方法(“=”),必须两者维度相同,所以这里把最后一列除开在外,使两者维度相同'''# Initialize centroids randomly#随机生成初始中心点centroids = dataSet[np.random.randint(numPoints,size=k),:] #需要从所有行中选取k组作为中心点# centroids =dataSet[0:2,:]  ##表示自行选取前两个axis中两组点作为中心点,用来核算算法是否准确#Randomly assign labels to initial centoridcentroids[:,-1] = range(1,k+1) #将中心点分类为1,2,k~等若干类# Initialize book keeping vars. 记账:迭代次数iterations = 0oldCentroids = None #每一次迭代完新的中心点就要变成旧的中心点,后面用
# Run the main k-means algorithm
# 停止函数中的参数:
# oldCentroids: 旧的中心点 
# centroids:新的中心点,可以设置新旧相等时停止
# iterations: 记录循环多少次,可以用来设置到指定循环次数停止
# maxIt:循序循环的最大次数while not shouldStop(oldCentroids,centroids,iterations,maxIt):print('iterations:\n',iterations)print('dataSet:\n',dataSet)print('centroids:\n',centroids)# Save old centroids for convergence test. Book keepingoldCentroids = np.copy(centroids) #将新中心点变为就中心点,并且保留旧中心点的值,**使用np.copy**iterations += 1# Assign labels to each datapoint based on centroidsupdateLabels(dataSet,centroids) #调用更新label的函数centroids = getCentroids(dataSet,k) #获取中心点用于判断是否结束# We can also get the labels  by calling getLabels(dataSet, centroids)return dataSet# Function: Should Stop
# -------------
# Returns True or False if k-means is done. K-means terminates either
# because it has run a maximum number of iterations OR the centroids stop changing.
# 终止条件:迭代次数到达指定次数;或中心点不再变化
def shouldStop(oldCentroids,centroids,iterations,maxIt):if iterations>maxIt:return Truereturn np.array_equal(oldCentroids,centroids) #**使用np.array_equal判断两数组值是否相等**判断类型相同则用?def updateLabels(dataSet,centroids): #距离中心点最短则与中心点归为一类,归类的具体方法后面单独封包了函数numPoints,numDim = dataSet.shapefor i in range(numPoints):dataSet[i,-1] = getLabelFromClosestCentroids(dataSet[i,:-1],centroids)#需要参数:中心点和每一行的特征值#归类方法比较复杂,单独封包一个函数def getLabelFromClosestCentroids(dataRow,centroids): # dataSetRow:一行一个实例。中心点(K行,列数相同的矩阵) label = centroids[0,-1] #第0[]中的的倒数第一个值赋值给labelminDist = np.linalg.norm(dataRow - centroids[0,:-1])  #第一个距离就是最小值,dataRow?'''np.linalg.norm(X-Y):sqrt((x1-y1)^2+(x2-y2)^2),X=np.array([x1,x2]),Y=np.array([y1,y2]);可以理解为欧几里得distance求向量的距离'''#linalg=linear(线性)+algebra(代数),norm则表示范数for i in range(1,centroids.shape[0]+1): #+1?dist = np.linalg.norm(dataRow-centroids[i,:-1])if dist < minDist:minDist = distlabel = centroids[i,-1]print('minDist:',minDist)return label
# Function: Get Centroids
# -------------
# Returns k random centroids, each of dimension n.
def getCentroids(dataSet,k):result = np.zeros((k,dataSet.shape[1])) #两对括号 不然会报错 TypeError: data type not understoodfor i in range(1,k+1):oneCluster = dataSet[dataSet[:,-1]==i,:-1] #对于dataset每一行如果dataset最后一个值(即label)=i,则把它的特征值X赋值给oneCluster组成一个数组array'''相当于嵌套了一个if dataSet[:-1]==i语句'''# np.meamn,axis=0对array的行求均值,axis=1对array的列求均值result[i-1,:-1] = np.mean(oneCluster,axis=0) #求均值找中心点,result即新的中心点result[i-1,-1] = i #Label分类为ireturn resultx1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])testX = np.vstack((x1,x2,x3,x4)) #按垂直方向堆叠构成一个新的数组,注意两对括号result = kmeans(testX,2,10)
print('final result:\n',result)#sklearn 中也可以调用kmeans算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu12.04

http://blog.sina.com.cn/s/blog_92942dba01014r7z.html

智慧交通day02-车流量检测实现12:基于yoloV3的目标检测

在本章节代码编写中&#xff0c;发现之前的代码所处的环境是python3&#xff0c;因此导致了cv2.dnn.readNetFromDarknet()在代码运行中导致了i[0]的获值失败&#xff0c;故总结如下&#xff1a; cv2.dnn.readNetFromDarknet()在python3上遇到的问题_李大狗的读研日记-CSDN博客…

非线性回归(Non-linear Regression)

非线性回归应用&#xff08;Logistic Regression Application&#xff09; 理论实际应用整合到一起链接 import numpy as np import random# 一个函数为梯度下降的算法 def GradientDescent(x,y,theta,alpha,m,numInterations):# m denotes the number of examples here, not…

cv2.dnn.readNetFromDarknet()在python3上遇到的问题

问题描述&#xff1a; 代码如下 net cv2.dnn.readNetFromDarknet(configPath,weightsPath) #获取YOLO每一层的名称 #getLayerNames&#xff08;&#xff09;&#xff1a;获取网络所有层的名称。 ln net.getLayerNames() # 获取输出层的名称: [yolo-82,yolo-94,yolo-106] # …

企业的网站遭受木马攻击了,导致网站目录下所有文件都被篡改了

问题&#xff1a; 一个 lamp 的服务器站点目录下所有文件均被植入如下内容 <script languagejavascript srchttp://luoahong.blog.51cto.com/504977/1827164> 包括图片文件也被植入了&#xff0c;网站打开时就会调用这个地址&#xff0c;造成的影响很恶劣。 实际解决办法…

智慧交通day02-车流量检测实现13:基于虚拟线圈法的车辆统计+视频中的车流量统计原理解析

1.基于虚拟线圈法的车辆统计 基于虚拟线圈的车流量统计算法原理与交通道路上的常见的传统的物理线圈类似&#xff0c;由于物理线圈需要埋设在路面之下&#xff0c;因此会有安装、维护费用高&#xff0c;造成路面破坏等问题&#xff0c;而采用基于视频的虚拟线圈的车辆计数方法…

ValueError: Found array with dim 4. Estimator expected和ValueError: Expected 2D array, got 1D array i

python3中对numpy数组进行降维或升维 解决报错如&#xff1a; 1.ValueError: Found array with dim 4. Estimator expected 2.ValueError: Expected 2D array, got 1D array instead: 报错1ValueError: Found array with dim 4. Estimator expected——解决方式&#xff1a…

ubuntu 12.04 eclipse 安装

方法二&#xff1a;(优点是安装内容清爽&#xff0c;缺点是配置麻烦) 1、安装JDK&#xff0c;参考 Ubuntu 12.04 下安装 JDK 7 2、下载 Eclipse 从 http://www.eclipse.org/downloads/index-developer.php下载合适版本&#xff0c;如&#xff1a;Eclipse IDE for C/C Develope…

智慧交通day02-车流量检测实现14:代码汇总+问题修正

代码权重文件资源https://download.csdn.net/download/qq_39237205/43072746https://download.csdn.net/download/qq_39237205/43072746 环境要求&#xff1a;python2.7 环境配置&#xff1a;见文末requirements.txt 1.YOLO.py # encoding:utf-8 import imutils import tim…

终端mysql Operation not permitted错误解决方案

前言 前段时间装mysql&#xff0c;就遇到了ln: /usr/bin/mysql: Operation not permitted的错误&#xff0c;网上好多方法都过时了&#xff0c;下边是我的解决方法 原因 这是因为苹果在OS X 10.11中引入的SIP特性使得即使加了sudo&#xff08;也就是具有root权限&#xff09;也…

从资源池和管理的角度理解物理内存

早就想搞一下内存问题了&#xff01;这次正趁着搞bigmemory内核&#xff0c;可以写一篇文章了。本文旨在记录&#xff0c;不包含细节&#xff0c;细节的话&#xff0c;google&#xff0c;百度均可&#xff0c;很多人已经写了不少了。我只是按照自己的理解记录一下内存的点点滴滴…

TypeError: object of type 'zip' has no len()、'zip' object is not subscriptable

TypeError: object of type ‘zip’ has no len()、‘zip’ object is not subscriptable zip 对象没有length属性不可以遍历 代码报错&#xff1a; print(len(training_data)) # TypeError: object of type zip has no len() print(training_data[0][0].shape) # TypeError…

【VBA编程】06.控制语句

【IF...THEN...语句】 If condition Then [statements1] else [statements2] end if condition 为一个逻辑表达式&#xff0c;表示做选择时需要判别的条件&#xff0c;其结果为布尔类型&#xff0c;当其值为真时&#xff0c;执行statements1语句&#xff0c;为假是则执行ELSE中…

从头开始学一个android activity

一、类层次结构&#xff1a; 二、什么是Activity&#xff0c;如何理解Activity 1、 用户与应用程序的交互的接口 2、 控件的容器&#xff0c;我们要把控件摆放在这个容器中 三、如何创建一个Activity 新建一个类&#xff1a; 1、 继承Activity类 [java] view plaincopyprint…

python3 numpy中矩阵np.dot(a,b)乘法运算

python np.dot(a,b)乘法运算 首先我们知道矩阵运算是不满足交换律的&#xff0c;np.dot(a, b)与np.dot(b, a)是不一样的 另外np.dot(a,b)和a.dot(b)果是一样的 1.numpy中数组&#xff08;矩阵&#xff09;相乘np.dot(a,b)运算&#xff1a; 对于两数组a和b &#xff1a; 示例…

MySQL数据库优化的八种方式(经典必看)

引言&#xff1a; 关于数据库优化&#xff0c;网上有不少资料和方法&#xff0c;但是不少质量参差不齐&#xff0c;有些总结的不够到位&#xff0c;内容冗杂 偶尔发现了这篇文章&#xff0c;总结得很经典&#xff0c;文章流量也很大&#xff0c;所以拿到自己的总结文集中&#…

class_create和class_device_create

//主要是在/sys/class/ 下创建一个 “name”的文件夹 &#xff01;从linux内核2.6的某个版本之后&#xff0c;devfs不复存在&#xff0c;udev成为devfs的替代。相比devfs&#xff0c;udev有很多优势&#xff0c;在此就不罗嗦了&#xff0c;提醒一点&#xff0c;udev是应用层的东…

OSError: [Errno 22] Invalid argument:**

OSError: [Errno 22] Invalid argument: 在使用open打开文件时&#xff0c;出现报错 OSError: [Errno 22] Invalid argument: H:\\GitRepository\neural-networks-and-deep-learning\\data\\mnist_expanded.pkl.gzpython3 可以将 \ 换为 / &#xff0c;或者换成 \ 但是最简单…