门户网站的门户思维有什么特点网站开发软件有哪
news/
2025/9/29 16:37:00/
文章来源:
门户网站的门户思维有什么特点,网站开发软件有哪,常用ppt模板网站,三网合一网站建设报价上一篇博客链接#xff1a; 机器学习与建模中 - 判断数据模型拟合效果的三种方法
在上一篇博客中#xff0c;我们谈到了使用损失函数来判断模型的拟合效果。但是拟合效果比较好的模型不一定是最好的模型#xff0c;建模的最终目的是为了预测#xff0c;因此预测最精准的模…上一篇博客链接 机器学习与建模中 - 判断数据模型拟合效果的三种方法
在上一篇博客中我们谈到了使用损失函数来判断模型的拟合效果。但是拟合效果比较好的模型不一定是最好的模型建模的最终目的是为了预测因此预测最精准的模型才是最好的模型。
提到预测我们引入一个新的概念叫作“泛化能力”泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律对具有同一规律的学习集以外的数据经过训练的网络也能给出合适的输出。
比如在多项式回归的例子上下图对于同样的训练数据8阶多项式的损失比1阶多项式小很多但是对于未来的预测8阶多项式显得非常糟糕下右图。由于8阶多项式的模型过于关注训练数据过拟合因此不能很好的泛化新数据。 为了克服过拟合能够更好的泛化我们一般采取以下四种方法
方法一验证集
方法二交叉验证
方法三K折交叉验证的计算缩放
方法四清洗噪点 方法一验证集
克服过拟合问题的一般方法是使用第二个数据集即验证集。用验证集来验证模型的泛化能力。验证集可以单独提供或者从原始数据中抽取一部分作为验证集。比如奥运会男子100米短跑数据抽取1980年之后的数据作为验证集1980年之前的数据用于训练模型。
在训练集上训练出 N 个模型为了判断模型的泛化能力我们计算他们在验证集上的损失函数损失函数越小则泛化能力越好。下图表明1阶多项式模型的泛化能力最好8阶和6阶的泛化能力较差。 下图给出了 1 阶、4 阶、8 阶多项式模型的泛化能力图可以很直观的看出来模型的好坏。 方法二交叉验证
交叉验证与验证相差“交叉”两个字所谓交叉验证就是把原始数据集分为大小尽可能相等的 K 块数据集每一块数据集轮流作为验证集剩余的 K-1 块作为训练集训练模型。在计算损失值得时候将K个验证集上计算出的损失值的平均数作为最后的损失值。
特殊的当 K N 时即把数量为 N 的原始数据集分成了 N 份这就使得每一次的验证集都只有一条数据。K 折交叉验证的这种特殊情况称之为留一交叉验证Leave-One-Out Cross Validation, LOOCVLOOCV情况下的损失值一般是用平均损失函数计算。 下图给出了奥运会男子100米短跑数据在LOOCV情况下的平均损失值图中曲线表明 3 阶多项式模型才是损失值最小的。这个结论显然与方法一中取1980年后的数据作为验证集的结论不一样这样的分歧并不是异常的。但是两种方法一致的结论就是高于 3 阶的模型都是不合适的。 方法三K折交叉验证的计算缩放
留一交叉验证似乎已经是评估模型好坏的一种好方法他几乎可以评估各种可选择的模型。然而在工作中我们往往要考虑成本问题对于 LOOCV 的实现需要训练模型 N 次这比简单的模型选择方法要多耗费约 N 倍的时间。对于一些复杂度比较高的模型比如高阶多项式、对数函数、三角函数等或者对于数据量比较大的模型这显然并不可行。
解决这个难题的方法就是限制 K 的值令 K N ,由此可以大大缩减训练模型的次数。
经历多年的尝试业界习惯的令 K 10在 10 折交叉验证中我们用数据集中的 10% 作为验证集剩下的 90% 作为训练集模型的训练只循环 10 次。特别是当数据条数 N 远远大于10 的情况下这将会是很大的一笔节省。 方法四清洗噪点
有时候能影响模型泛化能力的可能是某几个噪点引起的过拟合因此只要在数据清洗的过程中删除噪点或者用均值代替或者用邻近值代替即可数据清洗的方法请点击下面链接
文章链接Python数据预处理 - 数据清洗 - 洗什么怎么洗看完就明白了
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/921999.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!