监督学习方法总结

文章目录

    • 1. 适用问题
    • 2. 模型
      • 2.1 概率模型、非概率模型
      • 2.2 判别方法、生成方法
      • 2.3 特征空间
      • 2.4 线性、非线性模型
    • 3. 学习策略
    • 4. 学习算法

在这里插入图片描述

1. 适用问题

监督学习:学习一个模型,使它能对给定的输入预测相应的输出。包括分类、标注、回归。

  • 分类问题:从实例的 特征向量 到 类标记 的预测问题
  • 标注问题:从 观测序列 到 标记序列(或状态序列) 的预测问题。

感知机、k近邻法、朴素贝叶斯法、决策树简单的分类方法,具有模型直观、方法简单、实现容易等特点

逻辑斯谛回归、最大熵模型、支持向量机、提升方法更复杂但更有效的分类方法,往往分类准确率更高

隐马尔可夫模型、条件随机场是主要的标注方法。通常 条件随机场 的标注准确率更高

2. 模型

2.1 概率模型、非概率模型

预测模型 可以写成 条件概率分布 P(Y∣X)P(Y|X)P(YX) 或 决策函数 Y=f(X)Y=f(X)Y=f(X) 的形式。

  • 朴素贝叶斯法、隐马尔可夫模型 是概率模型
  • 感知机、k近邻法、支持向量机、提升方法 是非概率模型
  • 决策树、逻辑斯谛回归、最大熵模型、条件随机场既可以看作是概率模型,又可以看作是非概率模型

2.2 判别方法、生成方法

直接学习 条件概率分布 P(Y∣X)P(Y|X)P(YX) 或 决策函数 Y=f(X)Y=f(X)Y=f(X) 的方法为判别方法

  • 对应的模型是判别模型:感知机、k近邻法、决策树、逻辑斯谛回归、最大熵模型、支持向量机、提升方法、条件随机场

首先学习 联合概率分布 P(X,Y)P(X,Y)P(X,Y),从而求得 条件概率分布 P(Y∣X)P(Y|X)P(YX) 的方法是生成方法

  • 对应的模型是生成模型:朴素贝叶斯法、隐马尔可夫模型

2.3 特征空间

决策树是定义在一般特征空间上的,可以含有 连续变量 或 离散变量

感知机、支持向量机、k近邻法 的特征空间是欧氏空间(一般地,希尔伯特空间)

提升方法 的模型是 弱分类器 的线性组合,弱分类器 的 特征空间 就是提升方法模型的特征空间


2.4 线性、非线性模型

感知机模型 是 线性模型
逻辑斯谛回归、最大熵模型、条件随机场对数线性模型
k近邻法、决策树、支持向量机(包含核函数)、提升方法非线性模型

3. 学习策略

在二类分类的监督学习中,支持向量机、逻辑斯谛回归&最大熵模型、提升方法
各自使用 合页损失函数、逻辑斯谛损失函数、指数损失函数,分别写为:

[1−yf(x)]+[1-y f(x)]_{+}[1yf(x)]+

log⁡[1+exp⁡(−yf(x))]\log [1+\exp (-y f(x))]log[1+exp(yf(x))]

exp⁡(−yf(x))\exp (-y f(x))exp(yf(x))

这3种损失函数都是0-1损失函数的上界,具有相似的形状

在这里插入图片描述

可以认为 支持向量机、逻辑斯谛回归&最大熵模型、提升方法 使用不同的代理损失函数(surrogateloas Punotion)表示分类的损失,定义 经验风险 或 结构风险函数,实现二类分类学习任务。

学习的策略 是优化结构风险函数:

min⁡f∈H1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in H} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fHminN1i=1NL(yi,f(xi))+λJ(f)

第1项为 经验风险(经验损失),第2项为正则化项L(y,f(x))L(y,f(x))L(y,f(x)) 为损失函数,J(f)J(f)J(f) 为模型的复杂度,λ≥0\lambda \geq 0λ0为系数。

  • 支持向量机 用 L2L_2L2 范数表示模型的复杂度
  • 原始的 逻辑斯谛回归 与 最大熵模型 没有正则化项,可以给它们加上 L2L_2L2 范数正则化项
  • 提升方法 没有显式的正则化项,通过早停止(early stopping)的方法达到正则化的效果

概率模型 的学习 可以形式化为 极大似然估计贝叶斯估计的 极大后验概率估计

学习的策略是 极小化对数似然损失 或 极小化正则化的对数似然损失

对数似然损失可以写成:−log⁡P(y∣x)-\log P(y|x)logP(yx)

极大后验概率估计时,正则化项是先验概率的负对数


决策树 学习的策略是正则化的极大似然估计,损失函数是对数似然损失,正则化项是决策树的复杂度

逻辑斯谛回归&最大熵模型、条件随机场 的学习策略既可以看成是 极大似然估计(或正则化的极大似然估计),又可以看成是 极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)

朴素贝叶斯模型、隐马尔可夫模型 的非监督学习也是 极大似然估计 或 极大后验概率估计,但这时模型含有隐变量

4. 学习算法

统计学习的问题有了具体的形式以后,就变成了最优化问题

  • 朴素贝叶斯法、隐马尔可夫模型 的监督学习,最优解即极大似然估计值,可以由概率计算公式直接计算。

  • 感知机、逻辑斯谛回归 & 最大熵模型、条件随机场 的学习利用梯度下降法拟牛顿法等一般的无约束最优化问题的解法

  • 支持向量机 学习,可以解凸二次规划的对偶问题。有 序列最小最优化 算法等方法

  • 决策树 学习是基于启发式算法的典型例子。可以认为特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。

  • 提升方法 利用学习的模型是加法模型、损失函数是指数损失函数的特点,启发式地从前向后逐步学习模型,以达到逼近优化目标函数的目的

  • EM算法 是一种迭代的求解含隐变量概率模型参数的方法,它的收敛性可以保证,但不能保证收敛到全局最优

  • 支持向量机、逻辑斯谛回归 & 最大熵模型、条件随机场 学习是凸优化问题全局最优解保证存在。而其他学习问题则不是凸优化问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476690.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rabbitmq使用_Spring Boot中使用RabbitMQ

Message Broker与AMQP简介Message Broker是一种消息验证、传输、路由的架构模式,其设计目标主要应用于下面这些场景:消息路由到一个或多个目的地消息转化为其他的表现方式执行消息的聚集、消息的分解,并将结果发送到他们的目的地,…

注意力无用?Apple新作:注意力替换成常数矩阵,效果差异不大

文|萧箫 发自 凹非寺源|量子位要说Transformer的核心亮点,当然是注意力机制了。但现在,一篇新研究却突然提出了带点火药味的观点:注意力机制对于预训练Transformer有多重要,这事儿得打个问号。研究人员来自…

windows服务编程 注册InstallUtil.exe

dos命令下输入; C:\Windows\Microsoft.Net\Framework\v2.0.to727>InstallUtil.exe E:\Test\WindowsServiec1.exe 删除: C:\Windows\Microsoft.Net\Framework\v2.0.to727>InstallUtil.exe/u E:\Test\WindowsServiec1.exe 转载于:https://www.cnblogs.com/lgzh3/archive/2…

LeetCode 5. 最长回文子串(动态规划)

文章目录1. 题目2. 解题2.1 自己写的DP2.2 优化后的DP2.3 中心扩展法1. 题目 给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 输入: "babad" 输出: "bab" 注意: "aba" 也是一个有…

springboot整合kafka_springboot整合kafka实现消息的发送消费

如下是springboot整合kafka的一个案例,方便需要的小伙伴。启动kafka Servercd 到kafka的bin目录下:前提是启动zk./kafka-server-start.sh /Users/hz/programs/kafka_2.12-2.2.1/config/server.properties &kafka创建topic:kafka-topics.sh --create …

关于如何在BCB中使用CodeGuard

关于如何在BCB中使用CodeGuard点击数:231 录入时间:2007-6-7 一、 为什么写这篇东西 自己在使用 BCB5 写一些程序时需要检查很多东西,例如内存泄漏、资源是否有释放等等,在使用了很多工具后,发觉 BCB5 本…

港大腾讯提出DiffusionDet:第一个用于目标检测的扩散模型

编|杜伟、陈萍源|机器之心扩散模型不但在生成任务上非常成功,这次在目标检测任务上,更是超越了成熟的目标检测器。扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务…

无监督学习概论

文章目录1. 无监督学习基本原理2. 基本问题2.1 聚类 Clustering2.2 降维 Dimensionality Reduction2.3 概率模型估计3. 机器学习三要素4. 无监督学习方法4.1 聚类4.2 降维4.3 话题分析4.4 图分析1. 无监督学习基本原理 机器学习或统计学习一般包括监督学习、无监督学习、强化学…

python xlrd使用_python处理Excel xlrd的简单使用

xlrd主要用于读取Excel文件,本文为大家分享了python处理Excel的具体代码,供大家参考,具体内容如下 安装 pip install xlrd api使用 import xlrd # 打开Excel文件读取数据 workbook xlrd.open_workbook(a.xlsx); # 打印所有的sheet列出所有的…

学习Duwamish7的MSDN说明及相关技术策略

(一).MSDN对Duwamish7的说明   Duwamish 7.0 是由 MSDN 开发的通用 Duwamish 系列应用程序的功能性端口(完全使用 .NET 技术)。尽管示例本身是围绕虚拟网上书店建立的,但本示例主要关注的方面却是性能,与…

程序员面试金典 - 面试题 17.08. 马戏团人塔(最长上升子序 DP/二分查找)

文章目录1. 题目2. 解题2.1 超时解2.2 二分查找1. 题目 有个马戏团正在设计叠罗汉的表演节目,一个人要站在另一人的肩膀上。出于实际和美观的考虑,在上面的人要比下面的人矮一点且轻一点。 已知马戏团每个人的身高和体重,请编写代码计算叠罗…

海洋分享lol皮肤插件_LOL战斗之夜客户端BUG频出服务器爆满!如何提前领取皮肤?...

Hello大家好,我是Taker!昨天的战斗之夜,小编可是单排奋战了一整晚~排位段位和箱子积分都定格在了钻石,不知道各位如何呢?(^o^)/~今天终于到了收获的日子了!之前我们打的积分所获得的皮肤箱子今天就可以打开…

socket异步处理问题

由于一个项目要和第三方软件做接口,第三方软件是Unix的操作系统,所以用了Socket来传输数据。具体结构是这样的:本项目作为服务器端,第三方软件是客户端,并且有多个客户端。通常情况下,要开多个线程来处理多…

2022爆火的AIGC,能给AI续命吗

文 | 陈彩娴源 | AI科技评论生产力如已成熟,想象力还会远吗?“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。来自机器的审视在过去短短的两年间,算法从业…

LeetCode 354. 俄罗斯套娃信封问题(最长上升子序 DP/二分查找)

1. 题目 给定一些标记了宽度和高度的信封,宽度和高度以整数对形式 (w, h) 出现。 当另一个信封的宽度和高度都比这个信封大的时候,这个信封就可以放进另一个信封里,如同俄罗斯套娃一样。 请计算最多能有多少个信封能组成一组“俄罗斯套娃”…

python语言语句块标记是_Python的基本语法——语句块

1.语句块是在条件为真(条件语句)时执行或者执行多次(循环语句)的一组语句; 2在代码前放置空格来缩进语句即可创建语句块,语句块中的每行必须是同样的缩进量; 3.缩进:Python开发者有意…

[导入]设计模式初学者系列-工厂方法

摘要: 闲谈工厂方法 设计模式系列到了第四篇了,如果还不谈谈工厂方法设计模式就太对不起GoF了,为什么有如此一说?实际上工厂方法模式是好些模式的基石,她们或多或少的使用了工厂方法模式或以工厂方法为模型。 工厂方法模式是一种类…

推荐一个好发论文的研究方向

今天给大家推荐一个研究的好方向—— 图神经网络。它是近些年学术界和工业界最新的研究热点!在社交网络、知识图谱、推荐系统等工业界有广阔的应用前景。最重要的是,图神经网络与CV和NLP交叉,容易有创新点,是出论文的好方向。对于…

LeetCode 31. 下一个排列(线性扫描)

1. 题目 实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。 如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。 必须原地修改,只允许使用额外常数空间。…

Google工作10年的职场感悟

源|电子发烧友网、程序厨哈喽大家好,今天坐地铁读到了一位在 Google 工作10年的“老”工程师关于技术、管理和职场生涯的感悟。我看完后觉得很有收获,因此在这里也分享给大家。以下是全文,后文中的「我」均指「原作者」。我在 Goo…