人工智能之核心基础 机器学习 第八章 无监督学习概述

人工智能之核心基础 机器学习

第八章 无监督学习概述


文章目录

  • 人工智能之核心基础 机器学习
    • 8.1 什么是无监督学习?
      • 📌 定义:从“没有答案”的数据中找规律
    • 8.2 无监督学习的三大核心任务
      • 1️⃣ 聚类(Clustering)——“物以类聚”
      • 2️⃣ 降维(Dimensionality Reduction)——“压缩信息,保留精华”
      • 3️⃣ 异常检测(Anomaly Detection)——“揪出不合群的家伙”
    • 8.3 无监督学习的应用场景
    • 8.4 配套代码实现(Scikit-learn)
      • 🧪 示例数据准备
      • 1️⃣ 聚类实战:K-Means 用户分群
      • 2️⃣ 降维实战:PCA 数据压缩与可视化
      • 3️⃣ 异常检测实战:Isolation Forest 识别异常用户
    • 🎯 本章总结
      • 💡 无监督学习的核心价值:
  • 资料关注

8.1 什么是无监督学习?

📌 定义:从“没有答案”的数据中找规律

监督学习:老师告诉你每道题的正确答案(标签),你学着模仿。
无监督学习:给你一堆试卷,但没有标准答案,你要自己发现题目之间的规律、分组或结构。

核心特点

  • 输入只有特征X XX,没有标签y yy
  • 目标不是预测,而是理解数据本身
  • 像“数据侦探”一样挖掘隐藏模式

💡 举个生活例子:
你收到一箱混装水果(苹果、橙子、香蕉),没人告诉你哪个是哪个。
你通过颜色、形状、大小把它们分成几堆——这就是聚类


8.2 无监督学习的三大核心任务

1️⃣ 聚类(Clustering)——“物以类聚”

目标:将相似的数据点分到同一组,不相似的分开。

✅ 输出:每个样本的“群组编号”(如用户A属于“高价值客户群”)

典型算法

  • K-Means(最常用)
  • 层次聚类(Hierarchical Clustering)
  • DBSCAN(能发现任意形状簇)

2️⃣ 降维(Dimensionality Reduction)——“压缩信息,保留精华”

目标:把高维数据(如1000个特征)压缩成低维(如2维),同时尽量不丢失重要信息

✅ 用途:

  • 可视化(2D/3D画图)
  • 去噪
  • 加速后续模型训练

典型算法

  • 主成分分析(PCA)— 线性降维
  • t-SNE — 非线性,适合可视化
  • UMAP — 更快、更现代的非线性降维

3️⃣ 异常检测(Anomaly Detection)——“揪出不合群的家伙”

目标:找出与大多数数据显著不同的异常点(Outliers)。

✅ 应用:信用卡欺诈、设备故障、网络入侵

典型方法

  • 基于统计(如3σ原则)
  • 基于聚类(离群点不属于任何簇)
  • Isolation Forest(专门为此设计)
  • One-Class SVM

8.3 无监督学习的应用场景

场景任务类型实际案例
用户分群聚类电商将用户分为“价格敏感型”、“品牌忠诚型”等
数据压缩降维将人脸图像从10,000维压缩到50维用于人脸识别
异常值识别异常检测银行系统自动标记可疑交易
推荐系统预处理聚类+降维先对用户聚类,再在群内做个性化推荐
探索性数据分析(EDA)降维+聚类快速了解数据分布和潜在结构

💡关键价值:在没有标签的情况下,也能为业务提供洞察!


8.4 配套代码实现(Scikit-learn)

🧪 示例数据准备

importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportmake_blobs,load_digits# 生成模拟用户数据(收入 vs 消费)X,_=make_blobs(n_samples=300,centers=3,cluster_std=1.5,center_box=(-10,10),random_state=42)plt.scatter(X[:,0],X[:,1],s=30)plt.title("用户收入 vs 月消费(无标签)")plt.xlabel("标准化收入")plt.ylabel("标准化月消费")plt.show()

1️⃣ 聚类实战:K-Means 用户分群

fromsklearn.clusterimportKMeans# 使用K-Means聚类(假设分3群)kmeans=KMeans(n_clusters=3,random_state=42)y_pred=kmeans.fit_predict(X)# 可视化结果plt.scatter(X[:,0],X[:,1],c=y_pred,cmap='viridis',s=30)plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],c='red',marker='x',s=200,linewidths=3,label='聚类中心')plt.title("K-Means 用户分群结果")plt.legend()plt.show()# 输出:每个用户属于哪一类(0, 1, 或 2)print("前5个用户的群组:",y_pred[:5])

🔍业务解读

  • 群0:高收入高消费 → “高价值客户”
  • 群1:低收入低消费 → “价格敏感型”
  • 群2:高收入低消费 → “节俭型高净值客户”

2️⃣ 降维实战:PCA 数据压缩与可视化

fromsklearn.decompositionimportPCAfromsklearn.datasetsimportload_digits# 加载手写数字(64维 → 2维)digits=load_digits()X_digits=digits.data# shape: (1797, 64)# PCA降到2维pca=PCA(n_components=2)X_pca=pca.fit_transform(X_digits)# 可视化(按真实标签着色,仅用于观察效果)plt.figure(figsize=(8,6))plt.scatter(X_pca[:,0],X_pca[:,1],c=digits.target,cmap='tab10',alpha=0.6)plt.colorbar()plt.title("手写数字PCA降维(2D可视化)")plt.xlabel("第一主成分")plt.ylabel("第二主成分")plt.show()# 查看信息保留率print("前2个主成分保留方差比例:",pca.explained_variance_ratio_.sum())# ≈ 28%

💡提示:实际应用中可保留95%方差:

pca=PCA(n_components=0.95)# 自动选择维度

3️⃣ 异常检测实战:Isolation Forest 识别异常用户

fromsklearn.ensembleimportIsolationForest# 在用户数据中加入几个明显异常点X_with_outliers=np.vstack([X,[[20,20],[-15,-15],[18,-12]]])# 使用Isolation Forestiso_forest=IsolationForest(contamination=0.1,random_state=42)outlier_labels=iso_forest.fit_predict(X_with_outliers)# 1=正常, -1=异常# 可视化plt.scatter(X_with_outliers[outlier_labels==1,0],X_with_outliers[outlier_labels==1,1],c='blue',label='正常用户',s=30)plt.scatter(X_with_outliers[outlier_labels==-1,0],X_with_outliers[outlier_labels==-1,1],c='red',label='异常用户',s=100,marker='x')plt.title("异常用户检测(Isolation Forest)")plt.legend()plt.show()

优势:无需假设数据分布,对高维数据有效!


🎯 本章总结

任务目标关键算法输出形式
聚类分组相似样本K-Means, DBSCAN群组标签(0,1,2…)
降维压缩特征维度PCA, t-SNE低维表示(如2D坐标)
异常检测找出离群点Isolation Forest, One-Class SVM正常/异常标签

💡 无监督学习的核心价值:

  1. 探索未知:在没有先验知识时理解数据结构
  2. 预处理利器:为监督学习提供特征工程(如聚类ID作为新特征)
  3. 自动化洞察:无需人工标注,直接生成业务分群

🚀建议
掌握K-Means和PCA后,可深入:

  • 聚类评估指标(轮廓系数、Calinski-Harabasz指数)
  • 非线性降维(t-SNE, UMAP)
  • 半监督学习(结合少量标签提升无监督效果)

资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119839.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有哪些好的服务器托管服务商推荐?—— 以尚航科技为核心的专业测评​

在数字化转型加速的背景下,服务器托管服务的选择直接关系到企业业务的稳定性、数据安全与长期运营成本。本文将以国内知名服务商尚航科技为主要案例,结合行业标准与公开数据,从基础设施、网络能力、安全合规、运维服务等维度进行客观测评&…

黑马反弹抄底之短炒选股指标公式

{}N:7; M:3; VAR1:(CLOSE-LLV(LOW,60))/(HHV(HIGH,60)-LLV(LOW,60))*80; B:SMA(VAR1,N,1); VAR2:SMA(B,M,1); 短炒:crOSS(B,VAR2) AND B<65 AND CLOSE>OPEN AND (C/REF(C,1))>0.5,LINETHICK1,COLORGREEN;

全新网址二维码与Ai文字转语音技术,助力电子画册轻松生成

全新网址二维码和Ai文字转语音技术的结合&#xff0c;让电子画册的生成变得更简便。这些技术使用户能轻松创建独特的二维码&#xff0c;集成网址、文档和多媒体内容。使用这些二维码&#xff0c;观众能够直接访问丰富的信息&#xff0c;提升互动体验。另外&#xff0c;Ai文字转…

基于SpringBoot的宠物店管理系统(源码+lw+部署文档+讲解等)

课题介绍 本课题聚焦宠物店日常运营规范化管理与服务效率提升的核心需求&#xff0c;设计并实现基于SpringBoot框架的宠物店管理系统。当前宠物店运营领域存在宠物信息记录零散、商品库存管控混乱、服务预约流程繁琐、客户档案管理滞后等问题&#xff0c;制约了宠物店的运营效率…

基于SpringBoot的传统手工艺文化展示平台的设计与实现(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦传统手工艺文化传承与传播的核心需求&#xff0c;开展基于SpringBoot的传统手工艺文化展示平台的设计与实现工作。当前传统手工艺文化传播领域普遍存在文化资源分散碎片化、展示渠道单一有限、手工艺人作品推广受阻、年轻群体了解途径匮乏等问题&#xff0c;…

中小企业服务器托管哪家好?尚航科技综合实力解析

数字化浪潮下&#xff0c;选择一家靠谱的服务器托管商&#xff0c;对中小企业来说至关重要。对于中小企业而言&#xff0c;服务器托管不仅是将服务器放在机房那么简单&#xff0c;它关系到业务连续性、数据安全性和长期成本控制。一个好的IDC服务商能够为企业提供稳定可靠的数字…

主力上班之选股指标公式

{}ZTJ:ZTPRICE(REF(CLOSE,1),0.1); DTJ:DTPRICE(REF(CLOSE,1),0.1); 阳线:C>O; 上影线:(H-MAX(C,O))/REF(C,1); k线实体:Abs(C-O)/REF(C,1); 涨停:C/REF(C,1)>1.098&&HC; 昨日涨停:REF(C,1)REF(ZTJ,1); 两连板:EVERY(涨停,2); 五连板:EVERY(涨停,5); 昨日非涨停:…

如何快速生成说明书二维码和音频二维码?

在现代使用中&#xff0c;二维码成为共享信息的重要工具。通过二维码&#xff0c;用户可以快速访问电子说明书和音频内容&#xff0c;提高了获取信息的效率。生成二维码的过程简单&#xff0c;只需要几步。不论是将说明书转化为二维码还是处理音频文件&#xff0c;首先需选定一…

必看!2026年企业宣传二维码推荐,解锁协同操作与录音转二维码的全新体验

在2026年&#xff0c;企业宣传二维码正迎来新的机遇。协同操作二维码能够提高信息共享的效率&#xff0c;团队成员通过扫描二维码可以快速获取项目更新。这种便捷的方式&#xff0c;帮助企业保持沟通畅通&#xff0c;提升整体运营效率。同时&#xff0c;录音转二维码的应用为企…

大型企业服务器托管选型指南:尚航科技的综合优势与适用场景分析

大型企业的服务器托管不仅是技术决策&#xff0c;更是关乎业务连续性、数据主权和长期竞争力的战略选择。对于大型企业而言&#xff0c;服务器托管决策远比中小企业复杂且关键。它关系到核心数据安全、业务连续性、合规性要求以及长期数字化转型路径。大型企业需要的不再是简单…

基于SpringBoot的宠物服务系统(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦宠物服务全流程规范化对接与服务质量提升的核心需求&#xff0c;设计并实现基于SpringBoot框架的宠物服务系统。当前宠物服务领域存在服务资源分散、用户与服务商对接低效、服务流程不透明、服务记录难追溯等问题&#xff0c;制约了宠物服务行业的发展效率&a…

学长亲荐8个一键生成论文工具,自考毕业论文轻松搞定!

学长亲荐8个一键生成论文工具&#xff0c;自考毕业论文轻松搞定&#xff01; AI 工具助力论文写作&#xff0c;高效省时更省心 随着人工智能技术的不断进步&#xff0c;越来越多的自考学生开始借助 AI 工具来提升论文写作效率。在当前 AIGC&#xff08;人工智能生成内容&#x…

第二届工程管理与安全工程国际学术会议 (EMSE 2026)

第二届工程管理与安全工程国际学术会议 (EMSE 2026) 2026 2nd International Conference on Engineering Management and Safety Engineering 2026年3月20-22日 中国成都 会议详情&#xff08;请点击&#xff09; 会议秘书温老师&#xff08;17620001794&#xff09; 【大…

基于SpringBoot的宠物领养管理系统(源码+lw+部署文档+讲解等)

课题介绍 本课题聚焦宠物领养全流程规范化管理与供需精准匹配的核心需求&#xff0c;设计并实现基于SpringBoot框架的宠物领养管理系统。当前宠物领养领域存在领养信息分散杂乱、领养资质审核不规范、领养流程不透明、领养后跟踪监管缺失等问题&#xff0c;制约了宠物领养事业的…

传统机器学习(如xgboost、随机森林等)和深度学习(如LSTM等)在时间序列预测各有什么优缺点?

传统机器学习方法&#xff08;如XGBoost、随机森林&#xff09;在时间序列预测中通常需要将时间序列数据转换为监督学习格式。这类方法的优势在于训练速度快、可解释性强&#xff0c;并且在中小规模数据集上往往表现稳健。此外&#xff0c;它们对超参数的敏感度相对较低&#x…

通达信主力上班指标公式

{}volUME:VOL,VOLSTICK; MAVOL1:MA(VOLUME,5); MAVOL2:MA(VOLUME,60); CC:(3*COLH)/6; MM:EMA(EMA(CC,20),2); 主力操盘基准量:HHV(MM,5)MAVOL2,COLORYELLOW,LINETHICK1; ZTJ:ZTPRICE(REF(CLOSE,1),0.1); DTJ:DTPRICE(REF(CLOSE,1),0.1); {k线} 阳线:C>O; 上影线:(H-MAX(C,O…

制造业MES、SAP、WMS之间实现工单发料都会经历什么

在制造业中&#xff0c;MES&#xff08;制造执行系统&#xff09;、SAP&#xff08;企业资源计划系统&#xff09;和WMS&#xff08;仓储管理系统&#xff09;之间的工单发料流程是一个关键的集成环节&#xff0c;用于确保生产所需的物料能够准确、及时地从仓库发放到生产线。这…

为什么我的电脑版本微信,找不到下面链接微信群删除并退出的界面——只有“删除聊天”的按钮,是相同的功能吗?这个是微信的bug吗?

为什么我的电脑版本微信&#xff0c;找不到下面链接微信群删除并退出的界面——只有“删除聊天”的按钮&#xff0c;是相同的功能吗&#xff1f;这个是微信的bug吗&#xff1f; 在电脑版微信中怎么删除并退出群聊-百度经验

基于SpringBoot的宠物领养系统(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦宠物领养供需精准对接与全流程规范化运营的核心需求&#xff0c;设计并实现基于SpringBoot框架的宠物领养系统。当前宠物领养领域普遍存在待领养宠物信息零散、领养人与宠物匹配低效、领养资质审核流程繁琐、领养后跟踪服务缺失等问题&#xff0c;不仅阻碍了…

基于SpringBoot的宠物成长监管系统的设计与实现(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦宠物成长过程精细化监管与养宠用户科学养护的核心需求&#xff0c;设计并实现基于SpringBoot框架的宠物成长监管系统。当前养宠领域存在宠物成长数据记录零散、健康状况难追踪、养护知识获取碎片化、疫苗驱虫等关键事项易遗漏等问题&#xff0c;制约了养宠用…