机器学习与建模 - 聚类、分类、回归的区别

一句话概括:

1. 聚类:无监督学习,学习结果将产生几个集合,集合中的元素彼此相似;

2. 分类:有监督学习,学习结果将产生几个函数,通过函数划分为几个集合,数据对象是离散值;

3. 回归:有监督学习,学习结果将产生几个函数,通过函数产生连续的结果,数据对象是连续值;

 

聚类

聚类算法是无监督学习的一种算法,也就是说,并没有一批已经打好标签的数据供机器训练模型。因此该算法用于在数据中寻找数据间隐藏的联系和区别。通过聚类后形成几个集合,集合内部的元素间具有较高的相似度,相似度的衡量可以通过欧几里得距离、概率距离、加权重距离计算。

常见的聚类算法有:

1.划分聚类: K-means 算法、k-medoids算法、K-pototypes算法、CLARANS算法

2.层次聚类:BIRCH算法、CURE算法、

3.密度聚类:DBSCAN算法、OPTICS算法、DENCLUE算法

4.网格聚类:STING算法、CLIQUE算法、WAVE-CLUSTER算法

5.混合聚类:高斯混合模型、CLIQUE算法(综合密度和网格的算法)

几个聚类算法的简单对比:

算法算法效率数据类型发现的聚类类型对噪点的敏感性对输入顺序的敏感性
BIRCH数值凸形或球形 不敏感 不太敏感
DBSCAN一般数值任意形状 敏感敏感
CURE较高数值任意形状不敏感 不太敏感
K-pototypes一般数值和符号 凸形或球形敏感一般
CLARANS较低数值凸形或球形 不敏感非常敏感
CUQUE 较低数值凸形或球形一般 不敏感

 

分类

分类算法要求先向模型输入数据的训练样本,从训练样本中提取描述该类数据的一个函数或模型。通过该模型对其他数据进行预测和归类,分类算法是一种对离散型随机变量建模或预测的监督学习算法,同时产生离散的结果。比如在医疗诊断中判断是否患有癌症,在放贷过程中进行客户评级等。

常见的分类算法:

1.决策树:ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ、SPRINT算法;

2.神经网络:BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络);

3.贝叶斯:朴素贝叶斯(Naive Bayes)算法、TAN算法;

4.基于关联规则的分类:CBA算法、ADT算法、CMAR算法、ARCS算法;

5.混合分类方法:Bagging算法、Boosting算法

6.支持向量机;

 

回归

回归算法与分类算法一样都是有监督的学习算法,因此也需要先向模型输入数据的训练样本。但是与分类算法的区别是,回归算法是一种对数值型连续随机变量进行预测和建模的监督学习算法,产生的结果也一般是数值型的。

例如向已经训练好的回归模型中输入一个人的数据,判断此人20年后的经济能力,则模型的回归结果是连续的,往往得到一条回归曲线。当自变量改变时,因变量呈现连续型变化。

常见的回归算法:

1.线性回归/逻辑回归/多项式回归:LR算法、LWLR算法(局部加权)、LRCV算法(交叉验证)、MLP算法(神经网络);

2.逐步回归;

3.岭回归;

4.LASSO回归;

5.ElasticNet回归;

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475539.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1481. 不同整数的最少数目(计数+排序+贪心)

1. 题目 给你一个整数数组 arr 和一个整数 k 。现需要从数组中恰好移除 k 个元素,请找出移除后数组中不同整数的最少数目。 示例 1: 输入:arr [5,5,4], k 1 输出:1 解释:移除 1 个 4 ,数组中只剩下 5 一…

Silverlight带关闭动画的内容控件,可移动的内容控件(一)

本例给大家介绍两个自定义控件&#xff0c;一个有显示和关闭两种状态&#xff0c;在状态切换时有动画效果。另外一个是可以拖动的内容控件&#xff0c;可以制作能拖动的面板。 A&#xff0e;带关闭动画的内容控件。 .xaml View Code <ResourceDictionary xmlns"htt…

模型评价 - 判断数据模型拟合效果的三种方法

数据建模的目的就是获得从自变量映射到因变量的函数&#xff0c;在建模的探索过程中&#xff0c;不同的方式总会得出不同的函数模型&#xff0c;而这些函数大多是由一些参数构成的&#xff0c;比如 y f&#xff08; x; w0, w1, w2, w3, ...&#xff09;。 平方损失函数 为了选…

Autodesk云计算系列视频 --- 云计算与Civil 3D

前面的视频介绍了云计算与AutoCAD/Revit/Inventor的结合&#xff0c;这一节是云计算与Civil 3D的结合例子&#xff1a; 演示中使用的云计算程序源代码可以从下面链接下载&#xff1a; The sample code used in the demonstration is available here. 转载于:https://www.cnblo…

模型评价 - 机器学习与建模中怎么克服过拟合问题?

上一篇博客链接&#xff1a; 机器学习与建模中 - 判断数据模型拟合效果的三种方法 在上一篇博客中&#xff0c;我们谈到了使用损失函数来判断模型的拟合效果。但是拟合效果比较好的模型不一定是最好的模型&#xff0c;建模的最终目的是为了预测&#xff0c;因此预测最精准的模…

LeetCode 957. N 天后的牢房(查找循环节)

1. 题目 8 间牢房排成一排&#xff0c;每间牢房不是有人住就是空着。 每天&#xff0c;无论牢房是被占用或空置&#xff0c;都会根据以下规则进行更改&#xff1a; 如果一间牢房的两个相邻的房间都被占用或都是空的&#xff0c;那么该牢房就会被占用。 否则&#xff0c;它就…

获取数据 - 下载附件解压附件 - Python代码

一些线上化刚刚起步的部门&#xff0c;并不是所有的数据都是直接推送到服务器的数据库中&#xff0c;有些数据往往是数据中心通过邮件形式推送的&#xff0c;如果每天接收邮件--下载附件--解压--合并文件--导入数据库&#xff0c;对于数据工程师来说&#xff0c;这无疑是琐碎且…

技术标书的写法

1, 背景&#xff0c;用户对什么关心&#xff0c;就说什么。即使没有软件也可以&#xff0c;用画图软件先画出来。2&#xff0c;用户招标流程&#xff0c;弄到评分标准一切就OK 了&#xff0c;比如说什么时候该上台演示&#xff0c;如果没有评分标 准&#xff0c;站在评审角度…

LeetCode 947. 移除最多的同行或同列石头(并查集)

1. 题目 我们将石头放置在二维平面中的一些整数坐标点上。每个坐标点上最多只能有一块石头。 每次 move 操作都会移除一块所在行或者列上有其他石头存在的石头。 请你设计一个算法&#xff0c;计算最多能执行多少次 move 操作&#xff1f; 示例 1&#xff1a; 输入&#xf…

因子分析模型

主成分分析和因子分析 #包载入 library(corrplot) library(psych) library(GPArotation) library(nFactors) library(gplots) library(RColorBrewer)1234567 主成分分析 主成分分析&#xff08;PCA&#xff09;是对针对大量相关变量提取获得很少的一组不相关的变量&#xff…

网络机器人开发商

http://soft.pt42.com/blog_backup_index.htm转载于:https://www.cnblogs.com/carl2380/archive/2011/09/01/2162136.html

因子分析模型 - 案例按步骤详解 - (SPSS建模)

一、SPSS中的因子分析。 步骤: &#xff08;1&#xff09;定义变量&#xff1a;x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重&#xff0c;x3-非农村人口比重&#xff0c;x4-乡村从业人员占农村人口的比重&#xff0c;x5-农业总产值占农林牧总…

MVC View 中 html 属性名与关键字冲突问题的分析与解决

在 MVC 的 View 中&#xff0c;允许使用 {} 来定义元素的属性。不过&#xff0c;HTML 中的 class 属性名与 C# 中的类 class 是冲突的&#xff0c;所以&#xff0c;在使用的时候&#xff0c;会发现不能使用 class 这个属性。解决的办法是在 class 前面加上一个 符号&#xff0…

神经网络 - 用单层感知器实现多个神经元的分类 - (Matlab建模)

训练样本矩阵&#xff1a; P [0.1 0.7 0.8 0.8 1.0 0.3 0.0 –0.3 –0.5 –1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 –1.5 –1.3]; 训练样本对应的分类&#xff1a; T [1 1 1 0 0 1 1 1 0 0 ;0 0 0 0 0 1 1 1 1 1]; 用MATLAB实现分类&…

LeetCode 1218. 最长定差子序列(哈希map)

1. 题目 给你一个整数数组 arr 和一个整数 difference&#xff0c;请你找出 arr 中所有相邻元素之间的差等于给定 difference 的等差子序列&#xff0c;并返回其中最长的等差子序列的长度。 示例 1&#xff1a; 输入&#xff1a;arr [1,2,3,4], difference 1 输出&#xff…

缺失值处理 - 定位空值并用空值的上一个值填充 - (Excel)

今天小助理很烦恼&#xff0c;说要处理一批汇率的数据&#xff0c;用近邻日期的汇率填充汇率为空的日期的汇率&#xff0c;这句话比较拗口&#xff0c;我们用数据解释一下。 比如下表&#xff0c;10月6日和10月8日9日的汇率没有采集到&#xff0c;那么我们就用10月5日的汇率填…

C#开发基础类库

下载地址&#xff1a;http://files.cnblogs.com/dashi/Sxmobi.rar转载于:https://www.cnblogs.com/dashi/archive/2011/09/09/2172506.html

LeetCode 1027. 最长等差数列(DP)

1. 题目 给定一个整数数组 A&#xff0c;返回 A 中最长等差子序列的长度。 回想一下&#xff0c;A 的子序列是列表 A[i_1], A[i_2], ..., A[i_k] 其中 0 < i_1 < i_2 < ... < i_k < A.length - 1。并且如果 B[i1] - B[i]( 0 < i < B.length - 1) 的值都…

因子分析模型 - 因子分析法原理与代码实现 -(Python,R)

因子分析基本思想 和主成分分析相似&#xff0c;首先从原理上说&#xff0c;主成分分析是试图寻找原有自变量的一个线性组合&#xff0c;取出对线性关系影响较大的原始数据&#xff0c;作为主要成分。 因子分析&#xff0c;是假设所有的自变量可以通过若干个因子&#xff08;中…

如何将两个DateTimePicker的日期和时间组合成一个值

有两个DateTimePicker&#xff0c;DateTimePicker1用于选择日期&#xff0c;DateTimePicker2用于选择Time&#xff0c;现在需要将两个DateTimePicker的值组合成一个DateTime使用。 方法&#xff1a; 1: DateTime dtTime Convert.ToDateTime(dateTimePicker1.Value.ToShortDate…