无监督学习概论

文章目录

    • 1. 无监督学习基本原理
    • 2. 基本问题
      • 2.1 聚类 Clustering
      • 2.2 降维 Dimensionality Reduction
      • 2.3 概率模型估计
    • 3. 机器学习三要素
    • 4. 无监督学习方法
      • 4.1 聚类
      • 4.2 降维
      • 4.3 话题分析
      • 4.4 图分析

1. 无监督学习基本原理

机器学习或统计学习一般包括监督学习、无监督学习、强化学习

无监督学习:从无标注数据中学习模型的机器学习问题

  • 无标注数据是自然得到的数据
  • 模型表示数据的类别、转换或概率
  • 本质:学习数据中的统计规律或潜在结构,主要包括 聚类、降维、概率估计
  • 基本想法:对给定数据(矩阵数据)进行某种“压缩”,找到数据的潜在结构,假定损失最小的压缩得到的结果就是最本质的结构
  • 考虑发掘数据的纵向结构,对应聚类
  • 考虑发掘数据的横向结构,对应降维
  • 考虑发掘数据的纵向与横向结构,对应概率模型估计

2. 基本问题

2.1 聚类 Clustering

聚类 是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。

  • 聚类分 硬聚类(一个样本只属于一个类)和 软聚类(一个样本可属于多个类)
  • 聚类方法有 层次聚类 和 kkk均值聚类
    在这里插入图片描述

2.2 降维 Dimensionality Reduction

降维 是将样本集合中的样本(实例)从高维空间转换到低维空间。降维可以帮助发现数据中隐藏的横向结构

假设样本 原本存在于低维空间,或近似地存在于低维空间,通过降维可以更好地表示样本数据的结构,更好地表示样本之间的关系

  • 降维有线性降维非线性降维,降维方法有主成分分析

在这里插入图片描述

2.3 概率模型估计

假设训练数据由一个概率模型生成,同时利用训练数据学习概率模型的结构和参数

  • 概率模型包括混合模型概率图模型
  • 概率图模型又包括有向图模型无向图模型
  • 概率模型估计可以帮助发现数据中隐藏的横向纵向结构

在这里插入图片描述

3. 机器学习三要素

同监督学习一样,无监督学习也有三要素:模型、策略、算法

模型 就是函数 z=gθ(x)z=g_\theta(x)z=gθ(x),条件概率分布 Pθ(z∣x)P_\theta(z |x)Pθ(zx),或 Pθ(x∣z)P_\theta(x|z)Pθ(xz),在聚类、降维、概率模型估计中拥有不同的形式

  • 聚类 中模型的输出是 类别
  • 降维 中模型的输出是 低维向量
  • 概率模型估计 中的模型可以是混合概率模型,也可以是有向概率图模型和无向概率图模型

策略 在不同的问题中有不同的形式,但都可以表示为目标函数的优化

  • 聚类 中样本与所属类别中心距离的最小化
  • 降维 中样本从高维空间转换到低维空间过程中信息损失的最小化
  • 概率模型估计 中模型生成数据概率的最大化

算法 通常是迭代算法,通过迭代达到目标函数的最优化,比如,梯度下降法。

  • 层次聚类法、k均值聚类 是硬聚类方法
  • 高斯混合模型 EM算法是软聚类方法
  • 主成分分析、潜在语义分析 是降维方法
  • 概率潜在语义分析、潜在狄利克雷分配 是概率模型估计方法

4. 无监督学习方法

4.1 聚类

聚类主要用于数据分析,也可以用于监督学习的前处理

  • 可以帮助发现数据中的统计规律
  • 数据通常是连续变量表示的,也可以是离散变量表示的

4.2 降维

降维主要用于数据分析,也可以用于监督学习的前处理

  • 可以帮助发现高维数据中的统计规律
  • 数据是连续变量表示的

4.3 话题分析

话题分析是文本分析的一种技术

  • 给定一个文本集合,话题分析旨在发现文本集合中每个文本的话题,而话题由单词的集合表示。
  • 话题分析方法潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

4.4 图分析

图分析 的目的发掘隐藏在图中的统计规律或潜在结构

  • 链接分析 是图分析的一种,主要是发现 有向图中的重要结点,包括 PageRank 算法
  • PageRank 算法最初是为互联网搜索而提出。将互联网看作是一个巨大的有向图,网页是结点,网页的超链接是有向边。PageRank 算法可以算出网页的 PageRank 值,表示其重要度,在搜索引擎的排序中网页的重要度起着重要作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python xlrd使用_python处理Excel xlrd的简单使用

xlrd主要用于读取Excel文件,本文为大家分享了python处理Excel的具体代码,供大家参考,具体内容如下 安装 pip install xlrd api使用 import xlrd # 打开Excel文件读取数据 workbook xlrd.open_workbook(a.xlsx); # 打印所有的sheet列出所有的…

学习Duwamish7的MSDN说明及相关技术策略

(一).MSDN对Duwamish7的说明   Duwamish 7.0 是由 MSDN 开发的通用 Duwamish 系列应用程序的功能性端口(完全使用 .NET 技术)。尽管示例本身是围绕虚拟网上书店建立的,但本示例主要关注的方面却是性能,与…

程序员面试金典 - 面试题 17.08. 马戏团人塔(最长上升子序 DP/二分查找)

文章目录1. 题目2. 解题2.1 超时解2.2 二分查找1. 题目 有个马戏团正在设计叠罗汉的表演节目,一个人要站在另一人的肩膀上。出于实际和美观的考虑,在上面的人要比下面的人矮一点且轻一点。 已知马戏团每个人的身高和体重,请编写代码计算叠罗…

海洋分享lol皮肤插件_LOL战斗之夜客户端BUG频出服务器爆满!如何提前领取皮肤?...

Hello大家好,我是Taker!昨天的战斗之夜,小编可是单排奋战了一整晚~排位段位和箱子积分都定格在了钻石,不知道各位如何呢?(^o^)/~今天终于到了收获的日子了!之前我们打的积分所获得的皮肤箱子今天就可以打开…

socket异步处理问题

由于一个项目要和第三方软件做接口,第三方软件是Unix的操作系统,所以用了Socket来传输数据。具体结构是这样的:本项目作为服务器端,第三方软件是客户端,并且有多个客户端。通常情况下,要开多个线程来处理多…

2022爆火的AIGC,能给AI续命吗

文 | 陈彩娴源 | AI科技评论生产力如已成熟,想象力还会远吗?“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。来自机器的审视在过去短短的两年间,算法从业…

LeetCode 354. 俄罗斯套娃信封问题(最长上升子序 DP/二分查找)

1. 题目 给定一些标记了宽度和高度的信封,宽度和高度以整数对形式 (w, h) 出现。 当另一个信封的宽度和高度都比这个信封大的时候,这个信封就可以放进另一个信封里,如同俄罗斯套娃一样。 请计算最多能有多少个信封能组成一组“俄罗斯套娃”…

python语言语句块标记是_Python的基本语法——语句块

1.语句块是在条件为真(条件语句)时执行或者执行多次(循环语句)的一组语句; 2在代码前放置空格来缩进语句即可创建语句块,语句块中的每行必须是同样的缩进量; 3.缩进:Python开发者有意…

[导入]设计模式初学者系列-工厂方法

摘要: 闲谈工厂方法 设计模式系列到了第四篇了,如果还不谈谈工厂方法设计模式就太对不起GoF了,为什么有如此一说?实际上工厂方法模式是好些模式的基石,她们或多或少的使用了工厂方法模式或以工厂方法为模型。 工厂方法模式是一种类…

推荐一个好发论文的研究方向

今天给大家推荐一个研究的好方向—— 图神经网络。它是近些年学术界和工业界最新的研究热点!在社交网络、知识图谱、推荐系统等工业界有广阔的应用前景。最重要的是,图神经网络与CV和NLP交叉,容易有创新点,是出论文的好方向。对于…

LeetCode 31. 下一个排列(线性扫描)

1. 题目 实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。 如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。 必须原地修改,只允许使用额外常数空间。…

Google工作10年的职场感悟

源|电子发烧友网、程序厨哈喽大家好,今天坐地铁读到了一位在 Google 工作10年的“老”工程师关于技术、管理和职场生涯的感悟。我看完后觉得很有收获,因此在这里也分享给大家。以下是全文,后文中的「我」均指「原作者」。我在 Goo…

博客堂joycode被黑掉了

博客堂现在用ie7已经打不开了&#xff0c;用telnet www.joycode.com 80 链接&#xff0c;链接成功之后输入大写的命令 GET / 然后连续两次回车&#xff0c;就可以看到第一行的木马代码<iframe src?????? width20 height0 frameborder0></iframe>。访问其中任…

python的注释符_Python3 注释和运算符

Python3 注释 确保对模块, 函数, 方法和行内注释使用正确的风格 Python中的注释有单行注释和多行注释&#xff1a; Python中单行注释以 # 开头&#xff0c;例如&#xff1a;&#xff1a; #这是一个注释 print("Hello, World!") 多行注释用三个单引号 或者三个双引号…

程序员面试金典 - 面试题 05.04. 下一个数(线性扫描)

文章目录1. 题目2. 解题2.1 STL2.2 线性扫描2.3 位运算1. 题目 下一个数。给定一个正整数&#xff0c;找出与其二进制表达式中1的个数相同且大小最接近的那两个数&#xff08;一个略大&#xff0c;一个略小&#xff09;。 例1:输入&#xff1a;num 2&#xff08;或者0b10&am…

同花顺如何切换k线_K线之形态学:浅谈纸白银产品该如何去做好交易?

K线之形态学&#xff1a;浅谈纸白银产品该如何去做好交易&#xff1f;由于疫情期间&#xff0c;明显感觉到今年做投资理财的朋友多了&#xff0c;特别是银行的纸产品&#xff0c;我是分析外盘伦敦银伦敦金为主&#xff0c;自己也是只操作外盘产品。国内的不管是纸白银或者TD白银…

从NeurIPS论文来看,中美学者很少互相引用

源&#xff5c;机器之心想要改变这种情况还很难。不知从何时起&#xff0c;我们习惯了人工智能的学术顶会上中美研究数量排名前两位的形势。不论在工业还是学术上&#xff0c;两者很大程度上引领了技术的发展&#xff0c;中美的交流也非常密切&#xff1a;不少大厂都会在对面设…

[导入][导入][c#]Web开发中Tag的开发技巧

http://onewww.net/blog/article.asp?id87网站开发常用关键字(tag)&#xff0c;一般需要获得最多的被采用的Tag&#xff0c;也就是流行词。通常思路是将关键字tag保存到单独表中&#xff0c;然后在其他表中根据一组id进行对多个关键字进行标识。因为一个文章可以选择多个tag&a…

泰坦尼克号生存预测入门

文章目录1. 数据预览2. 特征初步选择3. 增加特征Sex和Embarked4. 选择随机森林调参5. 实践总结本文作为学习记录&#xff0c;参考 此处&#xff0c;如有侵权&#xff0c;联系删除。1. 数据预览 数据集下载 import pandas as pd import numpy as np from pandas import Series…

excel去重_数据处理之EXCEL的高效技巧分享

这是一个技巧贴&#xff0c;直接上干货&#xff1a;1、你想在excel中看到函数值是如何计算出来的&#xff1f;Ctrl~&#xff1a;进入函数视图2、去除重复值方式有哪些?a、数据—数据工具—删除重复值(以当前选定区域排序&#xff1a;只对选中区域去重&#xff1b;扩展选定区域…