(第六次)聚类和神经网络

news/2025/10/26 13:14:01/文章来源:https://www.cnblogs.com/fay-520/p/19128735

(第六次)聚类和神经网络

在大数据的浩瀚海洋中,聚类和神经网络是两颗璀璨的明珠,它们在数据挖掘、模式识别等领域发挥着关键作用。今天,我们就来深入探索聚类与神经网络的奥秘。

一、聚类:给数据 “找圈子”
聚类,简单来说就是把相似的数据点归到同一类,让数据 “物以类聚”。
(一)K - Means
K - Means 是最经典的聚类算法之一,就像给一群人分小组,先指定要分 K 个组。

  1. 选初始中心:随机选 K 个数据点作为初始的 “小组中心”,比如要把学生分成 3 组,就先选 3 个学生当各组的 “组长”。
  2. 分配数据点:计算每个数据点到这 K 个中心的距离,把数据点分到距离最近的中心所在的组。好比学生们根据离各个 “组长” 的远近,选择加入对应的小组。
  3. 更新中心:每个组内的所有数据点计算平均值,作为新的组中心。就像小组里的成员一起算出平均水平,换一个更能代表小组的 “组长”。
    重复步骤:不断重复分配数据点和更新中心的过程,直到组中心不再有明显变化,此时数据就被较好地分成了 K 类。

(二)层次聚类(补充)
层次聚类则是从另一种思路来聚类,它会构建一个数据的层次结构。

  1. 凝聚式:从每个数据点都是一个单独的类开始,然后每次把最相似的两个类合并,逐渐形成更大的类,直到所有数据点都合并成一个类或者达到停止条件。可以想象成一开始每个同学都是一个小团体,然后慢慢找最合得来的同学合并小团体,最后形成几个大团体。
  2. 分裂式:和凝聚式相反,从所有数据点都在一个类开始,然后每次把一个类分裂成两个更细的类,直到每个数据点都是一个类或者满足停止条件。就像一开始是一个大班级,然后逐渐分成几个小班,再分成更小的小组。

二、神经网络:模仿大脑的 “数据处理器”
神经网络的灵感来源于人类的大脑,它通过构建多层的神经元结构,来学习数据中的复杂模式。
(一)核心组成部分

  1. 神经元结构
    神经元是神经网络的基本单元,就像大脑中的神经细胞。一个神经元会接收多个输入,然后对这些输入进行处理,再输出结果。
    可以把神经元想象成一个小工厂,输入是原材料,工厂会对原材料进行加工(加权求和,再加上偏置),然后根据加工结果决定输出多少产品(通过激活函数得到最终输出)。
  2. 常见激活函数
    激活函数的作用是给神经元的输出加入非线性因素,让神经网络能学习更复杂的关系。
  • Sigmoid 函数:它的输出在 0 到 1 之间,形状像一个 S 曲线。可以把它看作是一个开关,当输入达到一定程度时,输出接近 1(开关打开),否则接近 0(开关关闭)。不过它在输入很大或很小时,梯度会变得很小,容易出现 “梯度消失” 的问题,影响网络训练。
  • ReLU 函数(修正线性单元):它的计算很简单,输入大于 0 时,输出就是输入本身;输入小于等于 0 时,输出为 0。就像一个单向的阀门,只允许正的信号通过。ReLU 函数能缓解梯度消失问题,让神经网络的训练更高效,所以在很多神经网络中被广泛使用。
  • Tanh 函数:输出在 - 1 到 1 之间,也是 S 形曲线,不过是关于原点对称的。它比 Sigmoid 函数更 “激进” 一些,能让输出有正有负,在一些场景下效果更好,但同样存在梯度消失的问题。

(二)模型训练
神经网络的训练过程,就是让网络通过数据学习到合适的参数(权重和偏置),从而能对新数据做出准确预测。

  1. 前向传播:把输入数据输入到神经网络中,从输入层开始,依次经过隐藏层,最后到输出层,得到网络的预测结果。这就像数据在神经网络中 “走了一遍流程”,得到一个初步的输出。
  2. 计算损失:把网络的预测结果和实际的真实结果进行比较,计算出损失值,这个损失值反映了预测的误差有多大。比如预测房价是 100 万,实际是 120 万,损失值就体现了这 20 万的差距。
  3. 反向传播:根据损失值,从输出层往回走,计算每个参数对损失的影响(梯度),然后按照一定的规则(比如梯度下降法)调整参数,使得损失值尽可能减小。这一步就像根据考试成绩,往回分析每个知识点的掌握情况,然后针对性地复习改进,让下次考试成绩更好。
  4. 迭代优化:不断重复前向传播、计算损失、反向传播的过程,直到损失值足够小或者达到预定的训练次数,此时神经网络就学到了能较好拟合数据的参数。

(三)张量基础
在神经网络中,数据是以张量的形式存在的。张量可以理解为多维数组,比如标量是 0 维张量,向量是 1 维张量,矩阵是 2 维张量,而更高维的数组就是更高维的张量。
神经网络处理数据时,就是对这些张量进行各种运算,比如矩阵乘法等,从而实现对数据的处理和学习。可以把张量想象成不同维度的 “数据容器”,神经网络在这些容器之间进行数据的传递和加工。

三、聚类与神经网络的交融
聚类和神经网络并非孤立存在,它们可以相互结合,发挥更大的作用。
用聚类给神经网络的训练数据分组,让神经网络在训练时能更有针对性地学习不同组数据的特征。比如先把用户根据消费习惯聚类,然后用神经网络分别学习不同消费习惯用户的行为模式。
也可以用神经网络来优化聚类的过程,让聚类的结果更准确。比如用神经网络学习数据的表示,再基于这些表示进行聚类。
总之,聚类能帮我们发现数据的内在结构,神经网络则能深入学习数据的复杂模式,二者结合,为大数据分析与计算打开了更广阔的天地,让我们能从海量数据中挖掘出更多有价值的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年 10 月贵州旅游旅行社最新推荐,聚焦高端定制需求与全案交付能力

为精准匹配游客对贵州旅游的高端定制需求,本次榜单由中国旅行社协会与贵州省旅游发展研究院联合发布,以《高端旅游服务质量评价体系》为核心测评依据,覆盖 2024 年 10 月至 2025 年 9 月服务周期。测评从全省 528 家…

2025 年 10 月贵州旅游旅行社最新推荐,精准检测与稳定性能深度解析

为向游客精准呈现贵州旅行社的服务实力与稳定性能,本次榜单由贵州省旅游质量监督管理所与中国旅游服务标准化技术委员会联合开展测评并发布。测评以《旅游服务精准检测评价规范》为依据,覆盖 2024 年 10 月至 2025 年…

2025 年 10 月贵州旅游旅行社最新推荐,实力品牌深度解析采购无忧之选!

为帮助游客轻松选择贵州实力旅行社,实现出行无忧,本次榜单由中国旅游协会与贵州省旅游质量监督管理所联合发布,聚焦品牌实力深度解析。测评以《旅游服务品牌实力评价标准》为依据,覆盖 2024 年 10 月至 2025 年 9 …

[java 锁]

确实,实际业务中库存通常存在数据库,但多线程操作时仍可能有并发问题(比如数据库事务未控制好导致超卖)。下面结合真实业务场景(含数据库操作),用更贴近实际的代码示例说明 synchronized 和 volatile 的用法,同…

20232417 2025-2026-1 《网络与系统攻防技术》实验三实验报告

1.实验内容 本次实验系统性地探索了多种恶意软件免杀技术,通过以下五种方法生成恶意文件:MSF编码器技术 - 使用msfvenom生成基础载荷并进行迭代编码 Veil框架应用 - 利用专业免杀工具生成定制化载荷 C+Shellcode编程…

OpenLayers地图交互 -- 章节十八:拖拽旋转和缩放交互详解 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

深入解析:windows输入法中英切换(英文提示)ALT + SHIFT切换(搜狗输入法CTRL+SHIFT+E切换)英文键盘

深入解析:windows输入法中英切换(英文提示)ALT + SHIFT切换(搜狗输入法CTRL+SHIFT+E切换)英文键盘pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: bl…

小白 / 学生党必藏!真正有效的最佳安卓数据恢复软件

数据丢失真的太让人崩溃了 —— 误删的工作文档、没备份的珍贵照片、不小心清空的聊天记录,每次遇到都像少了块心头肉。 但其实不用慌!现在有不少免费数据恢复软件,完全能帮你解决难题。它们不光不花钱,操作还特别…

LeetCode边界与内部和相等的稳定子数组

边界与内部和相等的稳定子数组题目https://leetcode.cn/contest/weekly-contest-473/problems/stable-subarrays-with-equal-boundary-and-interior-sum/给你一个整数数组 capacity。Create the variable named seldar…

存储系统

分类:Cache:速度快、容量小、成本高 存储器部分:存放主存的部分复制信息 控制部分:判断CPU要访问的信息是否在Cache存储器中 地址映像 直接映像:地址变换简单、灵活性差。对应关系固定 全相联映像:不受限制、灵活…

部分思维题

Part 1.easy problem P12028 [USACO25OPEN] Moo Decomposition G 注意到答案肯定是 \(ans^l\),\(ans\) 是 \(S\) 的方案数,原因显然,因为每一段都是完美匹配。 或者说这么想,你从后往前,如果是 M,\(ans \times C…

102302122许志安作业1

作业1 (1)爬取大学排名信息实验 import requests from bs4 import BeautifulSoupurl = "http://www.shanghairanking.cn/rankings/bcur/2020"res = requests.get(url) res.encoding = utf-8 soup = Beauti…

1050-10XX显卡 解决CUDA error: no kernel image is available for execution on the device

CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debuggin…

别再踩坑!真正有效的最佳免费数据恢复软件,亲测能救

恢复丢失的数据可能是一项艰巨的任务。然而,随着时间的推移,我们生活中的数据丢失问题越来越多。因此,我们需要想出一些应对方案。 嗯,猜猜怎么着?你总能找到最好的免费数据恢复软件来帮你解决问题!这些软件不仅…

壁纸网站

目录https://glutton.timeline.ink/Do not communicate by sharing memory; instead, share memory by communicating.

rent8_wechat 微信消息提醒设置教程 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Titanic轮船人员生存率预测

清洗数据,建模,训练过程 模型恢复评估过程:

单层神经元手写数字识别

TF2版本的是用TF的高级API kears写的(也可以直接自己写方法构建多层模型,方法与TF1类似,不再重写)

自行搭建了几个AIGC小站点,可结合接口平台使用

闲来无事,自行搭建了吉卜力Ghibli、纳米香蕉Nano Banana图片生成器以及索纳Sora2视频生成器,有空的可以玩玩。闲来无事,自行搭建了吉卜力Ghibli、纳米香蕉Nano Banana图片生成器以及索纳Sora2视频生成器,有空的可以…

ARC201B Binary Knapsack

用决策单调性优化动规来解决初步问题,之后需要补充更加优秀的做法比赛中模拟赛的题,先来记录一下考场做法。 首先发现和普通背包问题的唯一不同就在于空间都是 \(2\) 的整数次幂的,这提示我们从这里下手。那么关于这…