机器学习之K-均值算法

机器学习之K-均值算法

news/2025/10/30 9:12:15/文章来源:https://www.cnblogs.com/guxuanqing/p/19175889

K-means（K-均值）聚类算法

是一种无监督学习算法。它的主要目标是将一组未标记的数据点划分为

Kcap K

𝐾

个簇（cluster），使得每个数据点都属于离它最近的簇中心（centroid），并且每个簇内部的数据点尽可能相似，而簇与簇之间的数据点尽可能不相似。

K-means 算法的工作流程

K-means 算法是一个迭代过程，它交替进行两个主要步骤：分配（Assignment）和更新（Update）。

初始化：
- 首先，需要预先确定聚类的数量
  
  Kcap K
  𝐾
  。
- 然后，随机选择
  
  Kcap K
  𝐾
  个数据点作为初始的簇中心（也称质心）。
分配数据点（Expectation 步骤）：
- 计算每个数据点到所有
  
  Kcap K
  𝐾
  个簇中心的距离（通常使用欧几里得距离）。
- 将每个数据点分配给距离它最近的簇中心所代表的簇。
更新簇中心（Maximization 步骤）：
- 重新计算每个簇的中心。新的簇中心是该簇中所有数据点的平均值（质心）。
重复迭代：
- 重复执行“分配数据点”和“更新簇中心”这两个步骤，直到满足以下任一停止条件：
  - 簇中心的位置不再发生显著变化。
  - 数据点不再重新分配到新的簇。
  - 达到预设的最大迭代次数。

K-means 的优缺点

优点

简单且高效：算法实现起来非常简单，并且计算效率高，尤其适用于处理大规模数据集。
易于理解和解释：其原理直观易懂，结果也容易解释。

缺点

需要预先确定

Kcap K
𝐾
值：用户必须提前指定簇的数量

Kcap K
𝐾
，而这个值的选择往往没有明确的指导。不恰当的

Kcap K
𝐾
值会导致糟糕的聚类结果。
对初始簇中心敏感：K-means 的结果依赖于初始簇中心的选择。不同的初始位置可能导致不同的最终聚类结果，甚至陷入局部最优。
对异常值敏感：由于簇中心是均值，少数异常值会显著影响簇中心的位置，从而扭曲聚类结果。
难以处理非凸形状的簇：K-means 倾向于发现球形或类似球形的簇。对于月牙形、环形等非凸形状的簇，它的效果较差。
对数据尺度敏感：如果数据特征的尺度差异很大，欧几里得距离会偏向于尺度大的特征。因此，通常需要对数据进行归一化处理。

K-means 的应用场景

客户细分：根据购买行为、消费习惯等将客户分成不同群体，以便进行精准营销。
图像分割：将图像中的像素点根据颜色或纹理相似性进行聚类，从而实现图像分割。
文档聚类：将相似主题的文档分组，有助于信息检索和整理。
异常检测：将正常数据点聚类后，远离任何簇中心的数据点可以被视为异常值。
推荐系统：通过对用户或物品进行聚类，可以为用户推荐同一簇内的物品。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/950469.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vs 无法加载一个或多个断点

vs 无法加载一个或多个断点

删除项目根目录文件.vs/../v16/.suo 缓存文件（注意.suo文件的用户特定的文件，不能在开发人员之间共享。）

阅读更多...

[AIGEN] - CMN‑700、CI‑700、NI‑700 的定位与关系 - ENGINEER

[AIGEN] - CMN‑700、CI‑700、NI‑700 的定位与关系 - ENGINEER

[AIGEN] - CMN‑700、CI‑700、NI‑700 的定位与关系CMN‑700、CI‑700、NI‑700 的定位与关系CMN‑700：面向基础设施/服务器的一致性网状网络（Mesh），基于 CHI 协议，可连接大量处理器核与 I/O，支持复杂的…

阅读更多...

基于Java+Springboot+Vue开发的家具管理系统源码+运行步骤

基于Java+Springboot+Vue开发的家具管理系统源码+运行步骤

项目简介该项目是基于Java+Springboot+Vue开发的家具管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习…

阅读更多...

2025年靠谱的白刚玉颗粒厂家推荐及选择指南

2025年靠谱的白刚玉颗粒厂家推荐及选择指南

2025年靠谱的白刚玉颗粒厂家推荐及选择指南开篇介绍白刚玉作为一种高性能的磨料和耐火材料，广泛应用于精密铸造、研磨抛光、耐火材料制造等领域。随着工业技术的进步，市场对白刚玉的品质要求越来越高，选择一家稳…

阅读更多...

2025年热门的免浆河虾仁厂家推荐及选择指南

2025年热门的免浆河虾仁厂家推荐及选择指南

2025年热门的免浆河虾仁厂家推荐及选择指南开篇介绍随着消费者对健康食品需求的不断提升，免浆河虾仁因其营养丰富、食用方便等特点，成为2025年水产品市场的热门选择。免浆河虾仁无需额外处理，可直接烹饪，既保留…

阅读更多...

2025.10.30——1蓝

2025.10.30——1蓝

提高+/省选- P7514 [省选联考 2021 A/B 卷] 卡牌游戏巧妙的滑动窗口，看了题解才意识到，一张卡片可以分成正反面两张来看。

阅读更多...

平衡树(二叉排序树)

平衡树(二叉排序树)

平衡树(二叉排序树)set，map底层为平衡树 splay，sbt，treap，AVL，替罪羊树 splay：本质为二叉排序树二叉排序树：有左子树 < root，柚子树 > root，采用中序遍历时为输出为有序序列虽然对于二叉树插入and查询…

阅读更多...

分享几个我珍藏的JS冷门但实用的技巧

分享几个我珍藏的JS冷门但实用的技巧

作为一名前端开发者，我在日常工作中发现了一些不太常见但极其实用的JavaScript技巧。这些技巧帮我解决了不少棘手问题，今天就来分享给大家。 1. 使用 ??= 进行逻辑空赋值你可能熟悉 ||=，但 ??= 才是更精准的选…

阅读更多...

2025年靠谱的履带式抛丸机厂家推荐及选购指南

2025年靠谱的履带式抛丸机厂家推荐及选购指南

2025年靠谱的履带式抛丸机厂家推荐及选购指南开篇介绍履带式抛丸机作为现代工业表面处理的核心设备，广泛应用于铸造、锻造、机械制造等领域。随着2025年制造业智能化升级的加速，选择一家技术领先、服务可靠的抛丸机厂…

阅读更多...

Java流程控制——while循环结构以及Dowhile

Java流程控制——while循环结构以及Dowhile

Java流程控制——while循环结构以及Dowhilewhile循环结构 while(布尔表达值){ //循环内容 } 关键点 1.布尔表达式为true，循环就一直进行 2.需要让表达式失效的方式来结束循环 3.少部分情况需要循环一直执行，如服务器…

阅读更多...

Last Call！对话式 AI 和对话式人类聚集！RTE Open Day@RTE2025，10.31/11.1，北京

Last Call！对话式 AI 和对话式人类聚集！RTE Open Day@RTE2025，10.31/11.1，北京

对话式 AI 和对话式人类聚集！2025 年 10 月 31 日~11 月 1 日，由声网和 RTE 开发者社区联合主办的 Convo AI&RTE2025「实时互联网大会暨对话式 AI 论坛」将在北京悠唐皇冠假日酒店正式开启！RTE Open Day 携手近…

阅读更多...

2025年矿用链条厂家权威推荐榜单：起重链条/刮板机/链轮源头厂家精选

2025年矿用链条厂家权威推荐榜单：起重链条/刮板机/链轮源头厂家精选

在矿山机械领域，一条高质量的链条承载着千钧重担，也连接着生产安全与效率。矿用链条作为矿山机械的关键基础部件，其质量与性能直接影响设备运行效率和安全生产。随着2025年全球矿山机械市场的持续扩张，矿用链条市…

阅读更多...

基于C++实现GPS捷联惯性组合导航系统

基于C++实现GPS捷联惯性组合导航系统

一、系统架构设计 1.1 模块划分 // 核心模块交互图 +-------------------+ +-------------------+ +-------------------+ | 传感器数据采集层 | →→→→→ | 导航解算核心层 | →→→→→ | 数据输出…

阅读更多...

Ubantu下创建虚拟环境的一些经验

Ubantu下创建虚拟环境的一些经验

今天在进行论文复现的项目中进行了论文代码复现，但是在配置过程中发现，出现了无法使用pip安装包的情况之后就上网进行求助，寻找原因给出的答案竟然是，Linux为了防止不同的包会出现依赖冲突，所以强制要求你去使用…

阅读更多...

数据仓库设计的核心：数据域的构建方法与实战

数据仓库设计的核心：数据域的构建方法与实战

在数据仓库的构建过程中，面对来源多样、结构各异的海量数据，如何对其进行有效的梳理和组织，是确保数据仓库具备良好可扩展性、可维护性和高应用价值的关键。数据域是组织数据模型、支撑指标开发与数据治理的核心逻辑…

阅读更多...

[题解]P3082 [USACO13MAR] Necklace G

[题解]P3082 [USACO13MAR] Necklace G

P3082 [USACO13MAR] Necklace G 原问题等价于求 \(A\) 中最多能保留多少多少元素，使得 \(B\) 不是它的子串，再用 \(n\) 去减一下。贪心地找 \(B\) 出现的位置统计是错误的。比如 aaabbbbbb ab 的答案是 \(3\)。考虑…

阅读更多...

2025年热门的电动观光车厂家推荐及选购参考榜

2025年热门的电动观光车厂家推荐及选购参考榜

2025年热门的电动观光车厂家推荐及选购参考榜随着环保意识的提升和旅游业的蓬勃发展，电动观光车已成为景区、酒店、房地产等场所不可或缺的交通工具。2025年，电动观光车市场迎来了新一轮的增长，众多厂家纷纷推出创新…

阅读更多...

Python3 pyecharts 模块：数据可视化的高效利器

Python3 pyecharts 模块：数据可视化的高效利器

Python3 pyecharts 模块：数据可视化的高效利器在数据驱动决策的时代，将复杂数据转化为直观图表的能力至关重要。pyecharts 作为 Python 生态中一款优秀的数据可视化库，以其简洁的 API 设计、丰富的图表类型和良好的…

阅读更多...

2025年知名的金钻绒厂家选购指南与推荐

2025年知名的金钻绒厂家选购指南与推荐

2025年知名的金钻绒厂家选购指南与推荐在纺织行业中，金钻绒因其柔软舒适、保暖性强、耐用性高等特点，广泛应用于家纺、服装、汽车内饰等领域。随着消费者对高品质面料需求的提升，选择一家可靠的金钻绒供应商至关重…

阅读更多...

项目效率翻倍，做对了什么？

项目效率翻倍，做对了什么？

以前还在厂里搬砖的时候，厌烦各种花里胡哨的项目和流程管理，当自己开始折腾项目，曾经讨厌的事情依旧讨厌，但是绝对的理解和认可，独立做产品，这么一个弱小的项目，都踩了一个又一个坑。从手忙脚乱，到游刃有余。【…

阅读更多...

最新文章