上海明鹏建设集团有限公司网站中国建设很行河北省分行合作网站
news/
2025/10/6 18:45:16/
文章来源:
上海明鹏建设集团有限公司网站,中国建设很行河北省分行合作网站,济南公司制作网站,网站建设公司费用文章目录 序言1. 样本不均衡2. 样本不均衡的影响以及样本均衡的意义3. 什么时候需要进行样本均衡/数据均衡4. 数据不均衡的解决办法 序言
数据集制作过程中需要关注样本均衡问题#xff0c;学习笔记#xff0c;简单记录
1. 样本不均衡
分类任务中不同类别样本数差别很大的… 文章目录 序言1. 样本不均衡2. 样本不均衡的影响以及样本均衡的意义3. 什么时候需要进行样本均衡/数据均衡4. 数据不均衡的解决办法 序言
数据集制作过程中需要关注样本均衡问题学习笔记简单记录
1. 样本不均衡
分类任务中不同类别样本数差别很大的情况样本比例大于比如4:1可以认为样本不均衡样本不均衡现象比较常见那么到底差异多少才算失衡呢按照google developer的说法我们一般可以把失衡分为三个程度 少数类 : 多数类 20%~40%, 轻度不均衡少数类 : 多数类 1%~20%, 中度不均衡少数类 : 多数类 1%, 极度不均衡
2. 样本不均衡的影响以及样本均衡的意义 样本不均衡的影响 假如”好、坏”两类样本占比是1000:1只要预测为”好”就能得到很高的准确率那么模型学到的不是如何分别好坏而是”好远比坏多”这样的先验信息这样就背离了用模型去分别好坏的初衷导致模型不能学习更本质的特征影响模型的鲁棒性 样本均衡的意义 通过解决样本不均衡可以减少模型学习样本比例的先验信息以获得能学习到辨别好坏这种本质特征的模型
3. 什么时候需要进行样本均衡/数据均衡
1 简单的线性可分任务样本是否均衡可能影响不大2 判断样本与真实样本分布是否一致且稳定如果不是数据如果带有先验信息可能就有副作用3 某一类样本非常稀少的情况模型很可能学习不好
4. 数据不均衡的解决办法 数据均衡本质上是通过某种方法使得不同类别的样本对于模型学习中的loss或梯度贡献是比较均衡的。以消除模型对不同类别的偏向性学习到更本质的特征 数据均衡的方法简单记录 (1) 样本层面 过采样和欠采样 过采样会导致样本重复可能导致过拟合最直接的方法是简单的复制少数类样本形成多条记录这种方式可能导致样本特征少而可能出现过拟合的问题经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或者通过一定规则产生新的合成样本欠采样可能导致类别间有重要差别的重要实例丢失在过滤少量样本不影响模型训练的情况下随机的删除一些多数类样本 数据增强 使用常见的数据增强方法增加样本数据如翻转、旋转、改变对比度、随机裁剪等 (2) loss层面: 主流的是代价敏感学习法cost sensitive为不同的分类错误给与不同惩罚力度/权重 scikit的’class weight’方法 为不同样本提供不同权重少数类有更高权重从而平衡各类别的学习避免决策边界偏重多数类的现象 OHEM和focal loss OHEM: Online Hard Example Mining, 算法的核心是选择一些困难样本多样性和高损失的样本作为训练的样本针对性地改善模型学习效果对于数据的类别不平衡问题OHEM的针对性更强Focal Loss: 在交叉熵损失函数CE的基础上增加了类别的不同权重以及困难样本的权重使训练时更专注于难分类的样本以改善模型的学习效果 (3) 模型层面模型层面主要是选择一些对样本不均衡比较不敏感的模型比如 逻辑回归在利用反向传播来优化参数时数量少的那一类在反向传播求梯度时影响比较小梯度容易向数量多的样本方向下降所以对样本分布不均衡比较敏感。决策树基于特征的划分去创建分类树可以强制的将不同类别样本分开在样本不均衡上比较不敏感一些 采样 集成学习的方法训练若干分类器进行集成学习采样过程是必须的否则同样会有利于多数类异常检测在样本类别极端不均衡的情况下比如少数类只有几十个样本分类问题考虑成异常检测问题可能会更好 (4) 决策及评估指标层面采用不均衡的数据训练模型时采用更好的决策和客观的评估比如对比分类问题采用recall precision F1分数 混淆矩阵样本不均衡时会明显改变这些指标的表现 分类阈值移动对于不均衡下模型的预测调整模型对于不同类别偏好的的情况如模型偏好预测负样本偏向0则我们分类阈值也往下调整达到决策时类别平衡的目的低于类别不均衡的模型评估可以采用AUC、AUPRC评估模型表现对正负样本的比例情况不敏感 【参考文章】 样本不均衡的解决办法 样本不均衡介绍及解决办法
created by shuaixio, 2023.10.24
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929598.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!