建设集团网站上海今天最新发布会
web/
2025/10/7 10:24:18/
文章来源:
建设集团网站,上海今天最新发布会,做最漂亮的网站,触摸屏网站建设本节主要就是讲述的机器学习的数学基础#xff0c;提到数学基础#xff0c;可能一眼就会是满眼的枯燥、没意思#xff0c;但是成就英雄的路上注定了孤独#xff0c;要想要真正的在学术上有所突破就必须挨得住寂寞#xff0c;受得住孤独#xff0c;才能真正的走进熟悉直到… 本节主要就是讲述的机器学习的数学基础提到数学基础可能一眼就会是满眼的枯燥、没意思但是成就英雄的路上注定了孤独要想要真正的在学术上有所突破就必须挨得住寂寞受得住孤独才能真正的走进熟悉直到完全掌握机器学习的真谛万事开头难而且做什么事情都要打好地基空中楼阁并不是现实中存在的所以我们从本期课程开始再次从基础开始学习吧本节内容为第三部分概率。三、概率3-1、为什么使用概率概率论是用于表示不确定性陈述的数学框架即它是对事物不确定性的度量。在人工智能领域我们主要以两种方式来使用概率论。首先概率法则告诉我们AI系统应该如何推理所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次我们可以用概率和统计从理论上分析我们提出的AI系统的行为。计算机科学的许多分支处理的对象都是完全确定的实体但机器学习却大量使用概率论。实际上如果你了解机器学习的工作原理你就会觉得这个很正常。因为机器学习大部分时候处理的都是不确定量或随机量。3-2、随机变量随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身而用带数字下标的小写字母来表示随机变量能够取到的值。例如X1 和 X2 都是随机变量X可能的取值。对于向量值变量我们会将随机变量写成X它的一个值为x。就其本身而言一个随机变量只是对可能的状态的描述它必须伴随着一个概率分布来指定每个状态的可能性。随机变量可以是离散的或者连续的。3-3、概率分布给定某随机变量的取值范围概率分布就是导致该随机事件出现的可能性。从机器学习的角度来看概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。3-4、条件概率很多情况下我们感兴趣的是某个事件在给定其它事件发生时出现的概率这种概率叫条件概率。我们将给定Xx时Yy发生的概率记为P(Yy|Xx)这个概率可以通过下面的公式来计算3-5、贝叶斯公式先看看什么是“先验概率”和“后验概率”以一个例子来说明假设某种病在人群中的发病率是0.001即1000人中大概会有1个人得病则有P(患病)0.1%即在没有做检验之前我们预计的患病率为P(患病)0.1%这个就叫作先验概率。再假设现在有一种该病的检测方法其检测的准确率为95%即如果真的得了这种病该检测法有95%的概率会检测出阳性但也有5%的概率检测出阴性或者反过来说但如果没有得病采用该方法有95%的概率检测出阴性但也有5%的概率检测为阳性。用概率条件概率表示即为P(显示阳性|患病)95%现在我们想知道的是在做完检测显示为阳性后某人的患病率P(患病|显示阳性)这个其实就称为后验概率。而这个叫贝叶斯的人其实就是为我们提供了一种可以利用先验概率计算后验概率的方法我们将其称为“贝叶斯公式”。在这个例子里就是贝叶斯公式贯穿了机器学习中随机问题分析的全过程。从文本分类到概率图模型其基本分类都是贝叶斯公式。期望、方差、协方差等主要反映数据的统计特征机器学习的一个很大应用就是数据挖掘等因此这些基本的统计概念也是很有必要掌握。另外像后面的EM算法中就需要用到期望的相关概念和性质。3-6、期望在概率论和统计学中数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一反映随机变量平均值的大小。假设X是一个离散随机变量其可能的取值有{x1,x2,......,xn}各个取值对应的概率取值为P(Xk),k1,2......,n则其数学期望被定义为假设X是一个连续型随机变量其概率密度函数为则其数学期望被定义为3-7、方差概率中方差用来衡量随机变量与其数学期望之间的偏离程度统计中的方差为样本方差是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下3-8、协方差在概率论和统计学中协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为3-9、常见分布函数1)0-1分布0-1分布是单个二值型离散随机变量的分布其概率分布函数为2)几何分布几何分布是离散型概率分布其定义为在n次伯努利试验中试验k次才得到第一次成功的机率。即前k-1次皆失败第k次成功的概率。其概率分布函数为性质3)二项分布二项分布即重复n次伯努利试验各次试验之间都相互独立并且每次试验中只有两种可能的结果而且这两种结果发生与否相互对立。如果每次试验时事件发生的概率为p不发生的概率为1-p则n次重复独立试验中发生k次的概率为4)高斯分布高斯分布又叫正态分布其曲线呈钟型两头低中间高左右对称因其曲线呈钟形如下图所示5)指数分布指数分布是事件的时间间隔的概率它的一个重要特征是无记忆性。例如如果某一元件的寿命的寿命为T已知元件使用了t小时它总共使用至少ts小时的条件概率与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布婴儿出生的时间间隔网站访问的时间间隔奶粉销售的时间间隔指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t就等同于t之内没有任何婴儿出生即指数分布的图像如下6)泊松分布日常生活中大量事件是有固定频率的比如某医院平均每小时出生3个婴儿某网站平均每分钟有2次访问某超市平均每小时销售4包奶粉它们的特点就是我们可以预估这些事件的总数但是没法知道具体的发生时间。已知平均每小时出生3个婴儿请问下一个小时会出生几个有可能一下子出生6个也有可能一个都不出生这是我们没法知道的。泊松分布就是描述某段时间内事件具体的发生概率。其概率函数为其中P表示概率N表示某种函数关系t表示时间n表示数量1小时内出生3个婴儿的概率就表示为P(N(1)3)λ表示事件的频率。还是以上面医院平均每小时出生3个婴儿为例则λ3那么接下来两个小时一个婴儿都不出生的概率可以求得为【注】上面的指数分布和泊松分布参考了阮一峰大牛的博客“泊松分布和指数分布10分钟教程”在此说明也对其表示感谢3-10、Lagrange乘子法对于一般的求极值问题我们都知道求导等于0就可以了。但是如果我们不但要求极值还要求一个满足一定约束条件的极值那么此时就可以构造Lagrange函数其实就是把约束项添加到原函数上然后对构造的新函数求导。对于一个要求极值的函数f(xy)图上的蓝圈就是这个函数的等高图就是说f(xy)c1c2...,cn 分别代表不同的数值(每个值代表一圈等高图)我要找到一组(x,y)使它的值ci越大越好但是这点必须满足约束条件g(x,y)(在黄线上)。也就是说f(x,y)和g(x,y)相切或者说它们的梯度▽f和▽g平行因此它们的梯度(偏导)成倍数关系那我么就假设为 λ 倍然后把约束条件加到原函数后再对它求导其实就等于满足了下图上的式子。在支持向量机模型(SVM)的推导中一步很关键的就是利用拉格朗日对偶性将原问题转化为对偶问题。3-11、最大似然估计最大似然也称为最大概似估计即在“模型已定参数θ未知”的情况下通过观测数据估计未知参数θ的一种思想或方法。其基本思想是给定样本取值后该样本最有可能来自参数为何值的总体。即寻找使得观测到样本数据的可能性最大。举个例子假设我们要统计全国人口的身高首先假设这个身高服从服从正态分布但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高但是可以通过采样(所有的采样要求都是独立同分布的)获取部分人的身高然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。求极大似然函数估计值的一般步骤1、写出似然函数2、对似然函数取对数3、两边同时求导数4、令导数为0解出似然方程。在机器学习中也会经常见到极大似然的影子。比如后面的逻辑斯特回归模型(LR)其核心就是构造对数损失函数后运用极大似然估计。矩阵做约内容提要天气寒冷注意保暖寒假不可怕就怕学霸玩转寒假知识点都已经写得这么明显了你还要错过吗雷课 让教育更有质量 让教育更有想象
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/88416.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!