网上如何建网站卖量具网站建设外包公司招聘
web/
2025/9/30 16:12:45/
文章来源:
网上如何建网站卖量具,网站建设外包公司招聘,网站后台分析图怎么做,微信答题小程序制作目录 二、从回归到线性分类模型#xff1a;分类
3.分类模型损失函数推导——极大似然估计法 #xff08;1#xff09;二分类损失函数——极大似然估计 #xff08;2#xff09;多分类损失函数——极大似然估计
4.模型损失函数推导新视角——交叉熵 #xff08;1#x…目录 二、从回归到线性分类模型分类
3.分类模型损失函数推导——极大似然估计法 1二分类损失函数——极大似然估计 2多分类损失函数——极大似然估计
4.模型损失函数推导新视角——交叉熵 1信息量和系统熵 2相对熵KL散度与交叉熵 3回归损失函数——交叉熵视角 4二分类损失函数——交叉熵视角 5多分类损失函数——交叉熵视角
二、从回归到线性分类模型分类 在上一篇文章中我们推导了从回归模型到分类模型的“中介”——链接函数下面在此基础上同回归模型逻辑一样进一步推导分类模型的损失函数。
3.分类模型损失函数推导——极大似然估计法 在回归损失函数的推导中我们引入了极大似然估计的方法从概率论的角度得到和最小二乘法一样的结论这样的推导为损失函数的设置提供了更严谨的数学理论支持。极大似然估计法同样可以推广到分类模型下面先对之前回归中的估计流程进行一个概括下述以回归为例。 极大似然估计推导损函流程以回归为例 1.模型假设分布 高斯分布 2.误差项的分布 均值为 0 的正态分布 3.y 的似然概率 正态分布概率密度函数 4.写出似然函数 所有样本 y 似然连乘 5.极大似然估计公式推导 取对数取负 根据上述流程首先推导二分类问题的损失函数形式。 1二分类损失函数——极大似然估计
①二分类的误差分布与假设分布 分类问题与回归问题最显著的一个差异是模型输出的样式。不同于回归的实数输出二分类问题的标签 和模型预测 的输出要么是 0要么是 1 。因此可以直接枚举出实际标签和模型预测只可能有四种确定的情况如下表所示。
误差 样本数量 样本数总和为 。可以看到误差项取值只有两种可能对应要么模型预测正确误差为零要么模型预测错误误差为一。通过上述表格可以看出误差项服从伯努利分布并且可以根据表格中统计的出现频率近似估计这一分布的参数 ——正类样本发生概率。即可以得到误差项分布也对应于二分类问题的假设分布。 ②标签 y 的似然概率 在回归中我们通过正态分布的线性组合性质推出 y 的具体分布。这实际是用模型输出来估计真实标签高斯分布的均值参数 。其中的数学原理在回归推导损失函数章节详细解释。 其中 二分类同理模型的输出 估计的是伯努利分布中的参数 。因此可以直接写出 y 的在模型输出 作为参数下的分布具体形式。 根据伯努利分布的密度函数可以计算写出 y 取不同值的具体概率。对于二分类问题真实标签 和模型输出 都只有两种取值情况。因此可以将两种分类情况写成一个式子概括。 ③似然函数与极大似然估计 上述有了单个样本的分类似然概率值函数那么对应于二分类问题的似然函数就是将所有样本的似然值乘积起来得到遇到出现当前所有样本取值情况的总的发生概率值。而极大似然估计朴素的想法就是既然出现了当前的采样结果就证明当前这个情况在“所有情况”中发生的概率应该最大因此我们通过最大化之前乘积的概率可以得到相关参数的估计值。 样本中正类样本的概率为 得到所有样本发生概率如下。 在似然估计中我们用模型的输出 来近似估计正类样本概率 。 进一步知道模型的输出 是由模型参数 决定的因为特征矩阵对于每个样本是固定的而模型参数就是我们需要去优化的部分。同时为了数值稳定还需求取平均。因此可以得到二分类问题优化所需的损失函数如下。 2多分类损失函数——极大似然估计 同二分类一样的逻辑这里不再赘述。区别是在其似然函数的数学表达上。对于 n 个分类的问题对应 n 个不同的概率取值。可以用一种“独热编码”的方式来表达。 我们可以“创建”一个 n 维的向量对于真实的分类标签来说其对应的分类可以用 n 维向量的对应索引位置取 1 来表达。 模型的输出同样也是一个 n 维的向量具体来讲其是一个概率的向量空间每个值对应该位置对应分类的概率取值。 那么对于上述给出真实标签分类的样本其给定 x 对 y 的似然如下。 可以发现对于当前样本其概率取值只需取出其真实分类的类别下模型预测的该类别概率值即可。因此可以用元素取值的方式将上述连乘归纳为一个式子其代表对应独热编码中的索引取出预测概率的值这也是为什么要用独热编码来标记不同类别的原因这样使得下述式子连乘可以推广到所有样本。 那么根据极大似然估计的思想我们将所有类别的样本对应于当前模型的概率值连乘起来就是当前模型预测所有采样结果整体发生概率的评估值。通过最大化这个值可以优化我们模型的参数 了。 其中 代表第 i 个类别采样的样本数 对于小批次 个训练样本假设每个类别都只有一个样本那么似然函数可以简化。 使用极大似然估计法得到多分类的损失函数。 4.模型损失函数推导新视角——交叉熵 使用极大似然估计法推到模型损失函数的方法总结来说是先根据假设分布得出关于 X 似然函数再将从实际分布中随机抽样的变量 X 值代入似然函数得到关于所有样本的总的似然。最终得到的似然是一个值它代表的是实际分布中的变量在假设分布下得到的概率换句话说极大似然估计是通过概率值的角度比较了实际和假设分布的差异其目的是为了通过参数变化使假设分布不断逼近实际分布。 因为实际分布和假设分布不是同一种分布因此我们不能直接比较其分布对应的参数如两个高斯分布可以通过比较其均值方差的差异来判断分布的差距。回归中实际分布是一个均匀分布假设分布是个高斯分布。因此才使用极大似然估计这一“下策”来衡量分布差异。 这样得到的损失函数其实本质是在衡量假设分布和实际分布的“差距”——当假设分布和实际分布差异很大时用实际分布的变量在假设分布下计算的概率应很小因此需要极大化似然函数差异小时概率很大。而极大化的优化过程就是通过模型参数W的变换来改变假设分布中的一些变量。 模型参数 W 隐含在模型输出中再通过链接函数与假设分布中的一些参数相关。如回归高斯分布中的均值二分类中的正样样本概率值多分类问题中每类的概率。 因此我们推到损失函数关心的关键点就是找到一种衡量假设分布和实际分布差异的指标交叉熵视角下也是延用了这一概率论的思想——从信息论的角度比较两个分布的差异。 1信息量和系统熵 引入信息量的概率并将其量化为数学公式。 ①信息量和概率存在反比关系。 现实生活中小概率事件总“让人着迷”这也是因为小概率事件包含的信息量更大。就比如股市上未来大涨或大跌的消息包含的信息量更大因为大多数情况股市都是一个区间的波动而突然的大涨大跌都是小概率事件其背后往往蕴藏着机遇或危机。又或者如猜明星游戏中告知姓氏就比告知性别信息量更大因为性别只有男女即二分之一的概率值而姓氏则是在百家姓中的选择随机猜中的概率更小。 由此我们可以初步定义一个最简单的数学关系式描述上述关系在后续逐步完善。设信息量用字母 表示事件的概率用 表示。 上述式子显然没有很好的描述概率和信息量的关系一个最特殊的例子是必然事件概率的信息量应该为零比如“太阳东升”这一表述就没有什么信息量对于一个有常识的人来说因为总所周知也就是日常说的“废话”。这表明信息量与概率的数学关系没有这么简单应该存在一个函数关系。 ②信息量具有乘积化加的性质。 举例来说假设场景为从工厂生产的甲、乙、丙、丁四种产品中抽取次品检测A信息是抽取甲、乙、丙、丁概率分别为 、 、 、 B信息是抽到是甲产品甲为次品的概率为 C信息是直接表示从工厂生产的两种产品中抽到甲产品是次品的概率是 。 例子中最后一个C信息在信息量的角度是A信息和B信息的总和因为抽到甲次品需要先确定抽到的是甲产品其次还要确定其为次品。同时A信息和B信息描述的事件是独立的因此概率上和C信息具有乘积等式关系。将上述表述用数学式子归纳如下。 第一个式子表示信息量的和关系第二个式子表示概率的乘积关系。由此可推出以下等式。 这表明对于计算信息量的函数 其应该满足上述式子中内部乘积可拆开为独立求和可以推断基础函数中 应是信息量函数的合理选择。 目前为止已知的信息量计算函数式子如下。 ③信息量与二进制的关系。 知道是 log 函数还不够还需清楚其底数。这需要信息编码角度重新审视我们先从一个简单的例子开始再过渡到之前找次品的例子。 现在有A、B、C、D四个等可能的事件它们发生概率都为 。假设现在只有0、1两个数二进制来表述信息通过其排列组合我们可以将四个事件用编码的方式用数字表示。最短编码的长度为2。
事件ABCD编码00011011概率1/41/41/41/4 当事件数量增加——八个等可能事件时最短编码长度为3。
事件ABCDEFGH编码000001010011100101110111概率1/81/81/81/81/81/81/81/8 当事件都是等可能时用最“粗暴”的方法就是给所有的可能性都编码所以对于均匀分布来说其编码的可能性就是其概率的倒数设编码长度为 均匀分布概率为 可得等式如下。 此时得到了和上一步相同的信息计算函数形式并且得到了底数的具体意义——用多少进制来编码数据底数为2代表使用二进制底数为3代表使用三进制.... 让我们回到稍复杂一点的找次品的例子其事件发生概率不再是等可能的情况了此时该如何编码。一种简单的方法是直接按可能情况编码如对于A信息只有四种情况抽到甲、抽到乙、抽到丙或抽到丁。这样编码和一个四个等可能事件编码没有区别。
事件ABCD概率1/41/41/41/4次品事件抽到甲抽到乙抽到丙抽到丁概率1/21/41/81/8编码00011011 但这样编码“效率是低的”对于“高频”发生的事件——抽到甲概率 将其和其他低概率发生的事件编码一样长度是不合理的有没有更好的编码方式我们可以按其各自发生概率值根据编码长度信息量计算公式来定其长度。如下表所示。
次品事件抽到甲抽到乙抽到丙抽到丁概率1/21/41/81/8编码长度编码√100010011编码×000010011 需注意抽到甲编码应和后续编码第一个数字区分开不然将难以区分开是抽到甲的信息未传输完还是其他情况最后一行给出了这种错误的编码方式。 对上述编码方式求其关于概率的加权平均长度如下设平均编码长度 不同情况的概率和其对应计算的编码长度分别为 。 这要比原先简单的将所有可能视为等概率编码使用更少的开销。因此可以归纳出一般的计算任意一个离散分布的信息量计算公式实际上推广到连续分布情况只需将求和符合变为积分 上述计算公式得到的不总是一个整数因此称其为编码“长度”不那么严谨了。这里引入一个新的名词系统熵也是信息熵——其代表的是关于分布的平均编码长度。 2相对熵KL散度与交叉熵 有了信息熵的计算定义以后回想我们最初引入信息量和熵概率的目的是找到一个“指标”可以定量衡量两个概率分布的差别从而可以计算机器学习模型参数代表的分布和实际我们希望机器学习到的现实的分布之前的差异。信息熵的计算得到的值可以代表分布的混乱程度也是其包含的信息量。因此很自然的我们关心两个分布信息熵的差值。 一种最直接的方法就是计算假设模型的信息熵减去实际分布的信息熵就好了。但是问题在于实际分布的情况好说假设模型的分布由于是存在于“我们脑海里”的一种假设它的采样概率真实是多少我们无从得知最多从这个假设算出其可能的“编码长度”即这个假设包含了多少的信息量。 下面详细看一下信息熵计算公式 中的 它其实需要拆分成两半。一半是用作加权求和的权值的概率 一半是用于计算事件所需编码长度的概率 。这么做也对应了前面说的假设分布的权值概率采样概率 是未知的。 上述计算信息熵的式子实际是计算一个分布每个概率值对应的编码长度最后加权求期望。回到之前抽次品的例子我们能计算出最短的平均编码长度也就是对抽到的是哪个产品这一事件的分布编码是因为我们在题干中以“上帝视角”给出了所有情况对应的概率。而现实中我们不可能把工厂所有产品都检测一遍我们只能抽样出小批量的样本。 基于这个背景此时出现了两种概率——假设分布的概率 心里预期估计的概率 实际分布的概率 实际采样得到的概率 下面举例说明假设检测次品中抽样产品类型——甲乙丙丁小批量独立随机的抽出10件产品。实际抽出的结果即其对应的实际概率分布如下。
抽样结果甲丙乙甲甲乙丁乙乙甲
采样事件 甲 乙 丙 丁 实际分布概率2/52/51/101/10求和权值2/52/51/101/10编码长度 假设分布即我们自己脑海里猜测的甲乙丙丁的概率——也可以理解为机器学习模型参数推测的概率分布现在给出两个不同的假设——1.假设同之前题目中给出的概率分布情况一样2.四个事件等概率发生。
题目概率的假设分布
假设事件 甲 乙 丙 丁 假设分布概率1/21/41/81/8求和权值编码长度
等概率的假设分布
假设事件 甲 乙 丙 丁 假设分布概率1/41/41/41/4求和权值编码长度 实际和假设分布的关键区别就在于假设分布就好比说“明天有多大概率下雨”我们只能去衡量这句话包含了多少的信息量编码长度而无法知道明天到底会不会下雨求和权值。 于是有了一种替代方案——不用假设分布和实际分布的绝对熵来衡量差异使用相对熵 KL散度来替换衡量两个分布的关系。 下面给出本节重点的 KL 散度定义式并由其推出我们想要的交叉熵表示式。 其实KL散度很简单既然只是假设分布的求和权值不知道那么就用已知的实际分布权值代替使用不就好了。因此 KL 散度中一定有一个基准分布如本例中将实际分布小批量抽样的结果概率视为基准可以得到 KL 散度衡量下的两个分布的相似度为 KL散度衡量的是两个分布系统的相似程度。因此这个值越小越好值越小假设分布和真实分布越相似趋于0时两个分布几乎一致了。 首先讨论之前给出的两个假设分布对应的 KL 散度值。 对于题目给出概率的假设分布根据公式可以计算得到它和真实的抽样分布的相似度如下。 对于等概率的假设分布根据公式可以计算得到它和真实的抽样分布的相似度如下。 可以看到题干给出的概率分布比等概率分布的假设计算的 KL 散度更小说明题干概率更接近真实的分布状况。很自然的联想到机器学习的模型参数训练过程就是从一个随机的参数等概率假设分布不断优化到接近真实的样本分布题干概率分布 。那么我们就需要极小化 KL 散度这得在KL散度计算是一个正数的前提下可以证得此处省略。 回到 KL 散度计算式由于真实分布的权值概率和信息量已知且固定因此绿色后式实际是一个“常数”而前式中蓝色部分会根据假设分布的不同而变化。因此在极小化过程中常数可以省略仅保留“变化部分”。 由此比较假设分布和实际分布的相似度可简化用一个式子表示上面前半部分就是交叉熵。下面定义数学表达式。 3回归损失函数——交叉熵视角 有了交叉熵衡量分布相似度后我们就可以定义一个“损失函数”来不断优化模型的预测分布不断逼近真实的样本分布。现在我们用交叉熵的计算视角重新推导回归模型的损失函数。 首先我们假设了回归模型的假设分布为高斯分布正态分布其分布均值为模型输出其采样的训练数据集满足随机独立抽样因此真实分布为均匀分布分布的概率为样本总数的倒数 。 根据交叉熵的分量求和运算由于假设分布和真实分布都是连续的因此要写出其对应的概率密度均匀分布的概率密度简单假设分布只需将模型参数代入正态分布概率密度函数即可。 因此可以得到假设分布和真实分布概率。 代入交叉熵计算式化简得到交叉熵视角下的回归损失函数。 之前极大似然估计中已经说明正态分布的方差 不是我们关心的重点可以省略。 为常数可以省略。因此得到了和之前推导的一致的均方误差损失函数。极小化这一损失函数就是极小化假设分布和真实分布的差异。 4二分类损失函数——交叉熵视角 二分类问题只有两种情况真实分布就是这两类样本在总样本中的比例关系。同时二分类两个概率和为1因此只需知道正类样本概率 y 即可推出负类概率为 1-y 。假设分布为伯努利分布且其概率参数在链接函数下和模型输出相关。 代入交叉熵计算式化简得到交叉熵视角下的二分类损失函数。 由二分类问题的定义可知 即伯努利分布的参数其实就是模型的预测输出代入交叉熵式子中可化简得下式。 5多分类损失函数——交叉熵视角 多分类与二分类并无本质区别难懂点在于符号上在极大似然估计法中我们并没有深入解释那些符号运算的推导现在举例说明关键是人为巧妙的引入了“独热编码”的方式。 不失一般性假设一个三分类问题简单起见每个类别有一个样本对应有模型对其预测我们可以将这里的训练真实样本分布和模型预测的假设分布按之前的表格形式写下来。
类别ABC独热编码[ 1, 0, 0 ][ 0, 1, 0 ][ 0, 0, 1 ]模型预测[ 0.7, 0.2, 0.1 ][ 0.1, 0.8, 0.1 ][ 0.2, 0.2, 0.6 ] 经过独热编码以后对于每个类别的交叉熵都可以用权值求和的形式计算交叉熵。
类别交叉熵ABC 这样的编码方式让我们发现计算一个样本的交叉熵值时其实就是对这个类别下模型预测的概率求其信息量因为对应的真实分布中标签值为 “1”其余的类别都不需要去管他们这在优化过程中也是合理的代表看到当前类别的特征值输入就要在当前类别的概率预测输出上越大越好。 由于不管样本取的是哪个类别真实分布都取的是 “1” 这个特殊值这个巧妙的设计使得我们无需去管交叉熵中真实分布的概率只需要取出假设分布即模型输出中对应于真实标签的预测概率值即可。 特别注意此处的 中都是向量元素不是幂次运算而是从中取出对应类别的元素值。 由此得到和极大似然法一致的损失函数形式。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/84538.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!