专业做全景图的网站平台重要的网站建设
news/
2025/10/1 2:04:34/
文章来源:
专业做全景图的网站平台,重要的网站建设,物流网站建设策划书,网站备案多少天点击蓝字关注我们作者丨土豆知乎来源丨https://zhuanlan.zhihu.com/p/158857128本文已获授权#xff0c;不得二次转载前言在深度学习中#xff0c;我们总是不可避免会碰到各种各样的损失函数。通常来说#xff0c;损失函数都是高维的函数#xff0c;难以可视化为人类可以分… 点击蓝字 关注我们作者丨土豆知乎来源丨https://zhuanlan.zhihu.com/p/158857128本文已获授权不得二次转载前言在深度学习中我们总是不可避免会碰到各种各样的损失函数。通常来说损失函数都是高维的函数难以可视化为人类可以分辨的二维或者三维形式因此这里介绍一种通过在高维空间中切片的损失函数可视化手段并且讨论下模型的参数空间。模型的参数空间我们知道在机器学习特别是深度学习中整个模型有着数以万计百万计的参数包括有权值偏置等这些参数通常来说都是实数如果用表示模型的所有参数既是其中就可以表示模型的参数量。我们可以知道的每个分量都是可以自由取值的当每个分量遍历了所有可能的取值时我们不妨把模型的所有可能参数取值看成一个空间名为参数空间(parameter space)用符号表示。也就是说我们模型中的每一个可能的参数组合都有。为了方便起见我们接下来的讨论将设为3也就是说我们下面讨论的模型只有三个参数。其参数空间绘制出来如下所示:因为这个空间中的每个点(元素)都代表着一个可能的参数组合因此都可以看成一个假设相同的模型。我们如下图可以发现不同参数组合之间可以自由移动比如从当前的移动到这个就是模型参数的更新过程。其实我们也可以简单地发现空间其实是一个线性空间因为无论是数乘还是加法在这个空间都是封闭的同时我认为这个空间不是内积空间因为在参数空间定义内积似乎没有意义不确定是否是赋范空间希望有了解的朋友指出。不管怎么说因为这个参数空间是一个线性空间我们可以用空间的非线性相关基底表示空间中的任意一个点了。特别的我们考虑这个空间中的一个平面这个平面可以由初始点和两个非线性相关的空间向量, 组成既是画出图如下所示:其实我们可以发现这个时候本来是可以在整个3维空间中进行参数搜索的通过限制或者说正则化手段将其限制在了只能在一个平面上进行参数搜索。这个行为正是正则的作用通过引入一些假设或者说偏好将模型过大的参数空间限制在一个偏好空间中从而实现更好的泛化和搜索。当然我这里为了可视化方便举的是3维的例子其实扩展到维也是一样的。我们接下来考察在维参数空间中利用刚才讨论的参数空间的线性特质进行损失函数的可视化。损失函数的二维可视化在模型中因为参数数以万计甚至数以百万计而且我们的损失函数是关于参数的一个函数因此损失函数也是个极其高高维的函数难以可视化但是通过切片的手段我们可以可视化出损失函数的一个切片出来定性观察其局部特性。我们看下如何进行切片。考虑一个损失函数假设其映射为也就是将每一个权值函数都映射到了一个相应的损失值(当然中间需要通过模型函数的作用这里省略了)假设我们的初始参数为那么假设两个方向的基底分别为和那么在这个由和为基底的平面中每一个新的参数都可以表示为也就说我们的损失函数可以从初始的更新到这个过程只要当初始值和基底和决定了(其实初始值可以随机选)就完全由两个值决定了因此可以将其画成一个平面图如下所示[2]:进一步分析我们可以知道这个过程其实相当于对损失函数进行了一个切片的操作如下图所示因此这个由组成的等高线图可以表示整个高维度损失函数的一个切面提供损失函数的局部信息当然不能描述整个损失函数但是不失为一个提供参考的好方法。下图是SVM损失函数依据此方法的可视化结果[1]左图具有正则约束而右图没有总结来说这种方法通过用两个维度代表了整个高维度的损失函数达到了可视化的目的。正则化正则常常在统计学和机器学习中提及其本质是引入一些先验的知识数据额外的知识解决一些病态(ill-posed)的问题以缓解过拟合的现象[4]。这个过程中给参数空间提供了偏好减小了参数空间的大小我们以后有机会再继续细谈不同正则的假设的解决的问题我们这里主要考虑的是怎么提供正则我们观察下面图我们容易发现其实参数空间中的每一个点都映射到了损失函数上其参数空间上的平移相当于损失函数上的“上坡”或者“下坡”因此损失函数的最小化体现在参数空间上就是参数在寻找一个最优值。那么我们不难推理出其实参数空间和损失函数是相关的我们对参数空间进行正则也就是进行偏好假设在损失函数上其实就相当于加上一个正则项控制损失函数的形状罢了。对于在考虑损失函数的情况下加上正则可以考虑在损失函数中添加正则项对于考虑参数空间的正则可以考虑不同的特殊网络结构这两种方法都是常见的添加正则的方法。我们以后文章中将会看到诸如dropout, L2 weight decay, L1 sparse, stochastic depth, weight sharing, sparse connection等等无一不是在我提到的这两种方法中考虑的。参考资料[1] 最优化基础损失函数可视化、折页损失函数 梯度计算[2] Li H, Xu Z, Taylor G, et al. Visualizing the loss landscape of neural nets[J]. arXiv preprint arXiv:1712.09913, 2017.[3] Dinh L, Pascanu R, Bengio S, et al. Sharp minima can generalize for deep nets[J]. arXiv preprint arXiv:1703.04933, 2017.[4] Regularization (mathematics)如有谬误请联系指出联系方式E-mail: FesianXu163.comQQ: 973926198Github: https://github.com/FesianXu推荐阅读图像分割损失函数最详细总结含代码深度学习常用损失函数总览基本形式、原理、特点最全的损失函数汇总添加极市小助手微信(ID : cv-mart)备注姓名-学校/公司-研究方向-城市(如小极-北大-目标检测-深圳)即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR等技术交流群更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流一起来让思想之光照的更远吧~△长按添加极市小助手△长按关注极市平台获取最新CV干货觉得有用麻烦给个在看啦~
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/923433.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!