网站互动推广苏州网站建设费用
news/
2025/9/28 9:53:59/
文章来源:
网站互动推广,苏州网站建设费用,wordpress 极简 主题,微信开发者工具官网平台入口特征工程#xff1a;是对原始数据进行一系列工程处理#xff0c;将其提炼为特征#xff0c;作为输入供算法和模型使用。从本质上来讲#xff0c;特征工程是一个表示和展现数据的过程。在实际工作中#xff0c;特征工程旨在去除原始数据中的杂质和冗余#xff0c;设计更高…特征工程是对原始数据进行一系列工程处理将其提炼为特征作为输入供算法和模型使用。从本质上来讲特征工程是一个表示和展现数据的过程。在实际工作中特征工程旨在去除原始数据中的杂质和冗余设计更高效的特征以刻画求解的问题和预测模型之间的关系。
对于机器学习问题数据和特征往往决定了结果的上限而算法模型的选择及优化则是在逐步接近这个上限。特征工程的框架图 常用的数据类型
1结构化数据可以看成关系型数据库的一张表每列都有清晰的定义包含了数值型和类别型两种基本数据类型每行代表一个样本的信息。
2非结构化数据主要包括文本、图像、音频、视频教程其包含的信息无法用一个简单的数值表示也没有清晰的类别定义并且数据的大小各不相同。
第1问为什么对数据进行归一化
为了消除数据特征之间的量纲影响对数据进行归一化使得不同指标之间具有可比性。对数值型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。常用方法
1线性函数归一化Min-Max Scaling它是对数据进行线性变换使结果映射到[0,1]范围实现对数据的等比缩放。 2零均值归一化Z-score Normalization它将数据映射到均值为0标准差为1的分布上。假设原始特征的均值是标准差是公式为 例以梯度下降的实例说明未归一化的数据在学习速率相同的情况下对数据进行归一化之后数据可以更快地找到最优解。
在实际应用中通过梯度下降法求解的模型通常是需要归一化的包括线性回归逻辑回归支持向量机神经网络模型等。但是对于决策树模型并不适用归一化之后的数据并不会改变样本在特征X上的信息增益。
其他树形模型是否需要归一化
树形模型不需要归一化不会影响结点分裂时的选择特征。
第2问在数据处理时类别型特征怎么处理
类别型特征主要是只在有限选项内取值的特征例如性别男女血型A,B,AB,O。类别型特征原始输入通常是字符串类型除了决策树等少数模型能直接处理字符串形式的输入对于逻辑回归等大部分模型来说都需要处理转换成数值型特征。
处理方法序号编码Ordinal Encoding独热编码(One-hot Encoding)二进制编码(Binary Encoding)
序号编码用于处理类别间具有大小关系的数据。如成绩可以分为低中高三档。并存在排序问题表示为高3中2低1。
独热编码用于处理类别间不具有大小关系的特征。如血型有四个取值可以转换为4维稀疏变量如
血型ABABO 1000 0100 0010 000 1
对于类别取值较多的情况下使用独热编码应该注意
1使用稀疏向量来节省空间。在独热编码下特征向量只有某一维取值为1其他位置均取0。因此可以利用向量的稀疏表示有效地节省空间。
2配合特征选择来降低难度。高维特征会带来以下问题一是KNN中高维空间下两点的距离很难得到有效的衡量。二是在逻辑回归模型中参数的数量会随着维度的增高而增加容易引起过拟合问题。三是通常只有部分维度是对分类、预测有帮助因此可以考虑配合特征选择来降低维度。注不太明白什么叫配合特征选择是在这个编码下只取部分特征吗这个特征怎么取方法呢会不会造成特征丢失
二进制编码主要是分两步先用序号编码给每个类别赋予一个类别ID然后将类别ID对应的二进制编码作为结果。如下
血型类别ID二进制表示A1001B2010AB3011O4100二进制是对ID进行哈希映射最终得到0/1特征向量且维数少于独热编码节省了存储空间。
其他编码方式Helmert ContrastSum ContrastPolynomial ContrastBackward Difference Contrast。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/920474.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!