机器学习笔记——特征工程

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。

在这里插入图片描述

文章目录

  • 特征工程(Fzeature Engineering)
    • 1. 特征提取(Feature Extraction)
      • 手工特征提取(Manual Feature Extraction):
      • 自动特征提取(Automated Feature Extraction):
    • 2. 特征选择(Feature Selection)
      • 1. 过滤法(Filter Methods)
      • 2. 包裹法(Wrapper Methods)
      • 3. 嵌入法(Embedded Methods)
      • 4. 其他方法
      • 5. 选择方法的应用场景
      • 总结
    • 3. 特征构造(Feature Construction)
    • 4. 特征缩放
      • 4.1 归一化(Normalization)
      • 4.2 标准化(Standardization)
      • BN、LN、IN、GN
  • 热门专栏
    • 机器学习
    • 深度学习

特征工程(Fzeature Engineering)

1. 特征提取(Feature Extraction)

特征提取:从原始数据提取能够有效表征数据特征的过程。它将原始数据转换为适合模型输入的特征表示。

手工特征提取(Manual Feature Extraction):

  • 文本数据
    • 词袋模型(Bag of Words):将文本数据转化为词频向量,每个单词是一个维度,值为该单词在文本中出现的次数。
    • TF-IDF:为词袋模型加入词频-逆文档频率(Term Frequency-Inverse Document Frequency),降低常见词语的权重提升重要词语的权重
    • N-gram:将连续的 N 个词作为一个特征,捕捉词语间的局部依赖关系
  • 图像数据
    • 边缘检测:使用 Sobel 算子、Canny 边缘检测等方法提取图像边缘信息。
    • SIFT(尺度不变特征变换):提取图像的关键点和局部特征,具有尺度不变性和旋转不变性。
    • HOG(方向梯度直方图):将图像分块,并统计每块的梯度方向直方图,用于描述局部形状和纹理特征。
  • 时间序列数据
    • 移动平均:对时间序列进行平滑,消除短期波动。
    • 傅里叶变换:将时间域的信号转化为频域信号,分析数据的周期性。
    • 窗口函数:将时间序列分为若干窗口,分别计算每个窗口的统计特征,如均值、方差等。

自动特征提取(Automated Feature Extraction):

  • 使用卷积神经网络(CNN):从图像中自动提取高级特征,如边缘、纹理、形状等。
  • 使用循环神经网络(RNN):处理时间序列数据,捕捉长时间依赖关系。
  • 使用BERT(Transformer):通过自监督学习自动提取上下文敏感的文本特征。
  • 自动编码器(Autoencoder):使用无监督学习从数据中提取低维特征表示,捕捉数据的潜在结构和模式。

2. 特征选择(Feature Selection)

特征选择(Feature Selection)是指从原始特征集中挑选出与目标任务最相关的特征,以提高模型的性能、减少训练时间以及降低过拟合的风险。特征选择方法主要分为三类:过滤法(Filter Methods)包裹法(Wrapper Methods)嵌入法(Embedded Methods)

1. 过滤法(Filter Methods)

  • 原理:独立于模型,训练前首先根据某些统计指标对特征进行评分,然后选择得分较高的特征。这种方法不依赖于特定的学习算法,只是基于数据本身的特性进行筛选
  • 常见方法
    • 方差选择法剔除方差较小的特征,认为方差小的特征对目标值影响小。
    • 皮尔森相关系数:计算特征与目标变量之间的线性相关性,选择线性相关性较高的特征
    • 互信息:衡量特征与目标变量之间的信息增益,选择信息量大的特征。
  • 优点计算效率高,易于实现
  • 缺点:未考虑特征之间的相互作用,可能遗漏组合特征的重要性。

2. 包裹法(Wrapper Methods)

  • 原理:在训练中,通过训练模型评估特征子集的表现,使用搜索策略找到对目标任务最优的特征组合。包裹法直接根据模型的性能进行选择,通常通过交叉验证来评估特征子集的好坏。
  • 常见方法
    • 前向选择(Forward Selection):从空集开始逐步添加对模型性能提升最大的特征。
    • 后向消除(Backward Elimination):从所有特征开始逐步移除对模型性能影响最小的特征。
  • 优点:能够考虑特征之间的相互作用,适合复杂的特征选择任务。
  • 缺点:计算开销大,尤其是当特征数目较多时,训练多个模型的过程会非常耗时。

3. 嵌入法(Embedded Methods)

  • 原理:嵌入法结合了过滤法和包裹法的优点,直接在模型训练过程自动选择特征。它通过学习算法自动选择最重要的特征,使特征选择与模型训练同时进行。
  • 常见方法
    • L1正则化(Lasso回归):通过在损失函数中添加L1正则化项,使**部分特征的系数变为零,从而进行特征选择。
    • 决策树及其变体(如随机森林、XGBoost):树模型的特征重要性得分可以用于选择重要特征。
    • Elastic Net:结合L1和L2正则化的优势,在保持模型稀疏性的同时,减少了多重共线性的影响,进行特征选择和模型优化。
  • 优点:特征选择与模型训练同时完成,考虑特征间的相互作用,效率较高。
  • 缺点:需要根据特定算法来进行选择,不具有模型无关性。

4. 其他方法

  • PCA(主成分分析):虽然PCA是降维方法,但在某些场景下可以间接用于特征选择。通过对数据进行线性变换,将多个原始特征组合成少数几个主成分。
  • LDA(线性判别分析):常用于分类问题的降维,也可以视作一种特征选择方法。
  • 基于稳定性选择(Stability Selection):通过在多次子样本集上重复训练模型,并选择那些在多个子集上都表现重要的特征,从而增强选择的鲁棒性。

5. 选择方法的应用场景

  • 过滤法适用于快速预筛选大量特征的情况,计算效率高,但可能丢失特征之间的组合信息。
  • 包裹法在特征数不多时(例如几十个或上百个)效果较好,能找到最佳的特征组合,但计算开销较大。
  • 嵌入法通常适用于大多数场景,尤其是使用线性模型(Lasso)或树模型时,既能训练模型又能自动选择特征。

总结

下面是特征选择方法的总结表格,保留了原有的描述信息:

方法类别原理常见方法优点缺点适用场景
过滤法(Filter Methods)独立于模型,基于统计指标对特征评分,并选择得分较高的特征。- 方差选择法:剔除方差较小的特征
- 皮尔森相关系数:选择线性相关性高的特征
- 互信息:选择信息增益大的特征
计算效率高,易于实现未考虑特征间相互作用,可能遗漏重要的组合特征快速预筛选大量特征的情况,适合初步筛选特征
包裹法(Wrapper Methods)通过训练模型评估特征子集表现,使用搜索策略找到最优特征组合。- 递归特征消除(RFE):删除不重要的特征
- 前向选择:逐步添加性能提升最大的特征
- 后向消除:逐步移除对模型性能影响小的特征
能考虑特征间的相互作用,适合复杂任务计算开销大,训练多个模型耗时长特征数较少(几十到上百个),适合需要精确特征选择的任务
嵌入法(Embedded Methods)结合过滤法和包裹法的优点,在模型训练过程中选择特征。- L1正则化(Lasso回归):通过L1正则化项使部分特征系数为零
- 决策树及其变体(随机森林、XGBoost):根据特征重要性评分选择特征
- Elastic Net:结合L1和L2正则化
特征选择与模型训练同时进行,考虑特征间相互作用,效率高需要根据特定算法选择,不具有模型无关性适合使用线性模型(如Lasso)或树模型的场景,大多数现代复杂模型都适用
其他方法PCA、LDA等方法虽然是降维方法,但可间接用于特征选择。- PCA:通过线性变换将多个特征组合成少数几个主成分
- LDA:常用于分类问题的降维方法
- 稳定性选择(Stability Selection):通过在子样本集上选择表现稳定的特征
能够进行有效降维,有时可以间接用于特征选择降维后特征解释性较弱数据维度较高的情况下,可以用作降维手段,间接提高特征选择效果
  • 过滤法:速度快,适合预处理大量特征,但可能丢失特征间的组合信息。
  • 包裹法:精度高,适合特征数较少且精度要求高的任务,但计算成本大。
  • 嵌入法性能和效率兼顾,适合大多数场景,尤其是使用线性模型(Lasso)或树模型时
  • 其他方法:如PCA、LDA等可以作为降维手段,间接用于特征选择,适合高维数据的场景。

选择合适的特征选择方法能够有效提升模型性能,降低训练时间,避免过拟合。

3. 特征构造(Feature Construction)

特征构造是通过对已有特征进行组合、变换或生成新特征来增强模型表达能力的过程。它可以将隐含的关系显式化,提高模型的拟合能力。

类别主要方法适用场景
数值特征构造变换、分箱处理数值特征、非线性关系
类别特征构造编码、组合处理类别特征、捕捉特征间关系
时间特征构造时间提取、周期特征、时间差时间序列数据、周期性特征
文本特征构造词袋、TF-IDF、词向量、N-grams文本数据、自然语言处理
特征交互与组合特征交互、多项式特征捕捉特征间的复杂关系,适合增强线性模型的非线性拟合能力
聚合与统计特征聚合、统计、窗口聚合大规模表格数据、时间序列数据
生成模型特征降维、聚类、自编码器生成特征复杂高维数据、需要特征压缩的场景
特征选择与构造结合筛选后构造、嵌入法生成特征大规模数据集、特征选择与构造结合的场景

特征构造是一项创造性和技术性并重的任务,需要结合领域知识、数据分析技巧以及机器学习经验来挖掘出更有利于模型训练的特征,从而提升模型的表现。

4. 特征缩放

  1. 归一化:通常是指将数据缩放到一个特定的范围,如[0, 1]。目的是让不同特征的值处于相同的尺度上,【同时也有消除不同特征量纲的影响的作用】大范围的特征值可能会导致梯度更新过慢或不稳定
  2. 标准化:是指对数据进行均值0、标准差1的变换,更关注数据的分布形态。目的是消除不同特征的物理单位和量纲(如重量、温度、距离等)差异,同时保持特征间的相对比例关系。

4.1 归一化(Normalization)

归一化特征值缩放到 [0, 1] 之间,常用于以下算法中:

  • K 近邻算法(KNN):归一化后减少不同特征尺度对距离计算的影响。能够避免特征量纲不同带来的距离计算问题。【与数据的分布无关】
  • 神经网络:将输入特征值缩放至 [0, 1],有助于加快模型收敛。
  • 聚类算法(如 K-Means):归一化避免特征尺度不同造成聚类结果偏差。

Min - Max归一化:将特征缩放到指定范围(通常为[0, 1]),公式为:
x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin

4.2 标准化(Standardization)

标准化特征值转化为均值为 0、方差为 1 的标准正态分布,常用于以下算法中:

  • 线性回归:标准化能够提升参数解释性,并避免部分特征影响过大。
  • 逻辑回归:标准化能够使梯度下降更快地收敛。
  • 支持向量机(SVM):标准化后距离计算更稳定。
  • 主成分分析(PCA):标准化防止某些方差大的特征主导主成分的计算。

Z - score标准化: 将数据转换为均值为0,方差为1的标准正态分布,公式为:
x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x=σxμ

BN、LN、IN、GN

以下是归一化方法对比总结,其中加入了每种归一化方法的原理:

归一化方法原理适用场景优点缺点
批归一化(BN)一个批量中的所有样本的同一通道进行归一化,基于批次的均值和方差调整卷积网络、全连接网络加快收敛,正则化,适应大批量训练对小批次敏感,序列任务效果差
层归一化(LN)单个样本的所有通道进行归一化,不依赖批量,计算层内均值和方差RNN、Transformer、序列任务适应小批次训练,不依赖批次大小计算量较大,收敛可能稍慢
实例归一化(IN)单张图像的每个通道分别独立进行归一化,计算每个样本的通道内均值和方差图像生成、风格迁移对风格敏感,适用于生成任务不适合分类任务,无法捕捉全局信息
组归一化(GN)单个样本的特征通道分组,对每一组进行归一化,计算组内均值和方差小批次训练,卷积网络适合小批次,不依赖批次大小对卷积核大小和通道数较敏感
权重归一化(WN)对神经元的权重向量进行归一化,将方向和长度分开重新参数化卷积网络、全连接网络、生成模型加速收敛,提高稳定性效果不一定显著,某些任务中不如BN

注意,虽然他们是叫做归一化(批归一化、层归一化、实例归一化),是将多个输入特征归一化为均值为 0、方差为 1 的分布,使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 𝛽,分别表示缩放和平移操作。

BN、LN、IN、GN 等归一化方法都包含了标准化的步骤,即它们都会将激活值调整为均值为 0、方差为 1 的分布,关键区别在于这些方法在不同的范围内计算均值和方差,以适应不同的训练场景和模型结构:

注意: 虽然它们方法名字中带“归一化”(批归一化、层归一化、实例归一化、组归一化),但它们的核心操作本质上是标准化,将多个输入特征归一化为均值为 0、方差为 1 的分布,使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 𝛽,分别表示缩放和平移操作。

热门专栏

机器学习

机器学习笔记合集

深度学习

深度学习笔记合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Ubuntu 20.04.6 LTS 中将 SCons 从 3.1.2 升级到 4.9.1

在 Ubuntu 20.04.6 LTS 中将 SCons 从 3.1.2 升级到 4.9.1,可以通过以下步骤完成: 方法 1:使用 pip 安装(推荐) 步骤 1:卸载旧版本 SCons # 如果通过 apt 安装的旧版本,先卸载 sudo apt remov…

LeetCode热题100--234.回文链表--简单

1. 题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head [1,2,2,1] 输出:true 示例 2: 输入&#xf…

【markdown】介绍如何在markdown中绘制流程图

在 Markdown 中编写流程图主要通过 ​​Mermaid 语法​​实现(多数平台如 GitHub、VS Code、Typora 已原生支持)。以下是详细方法: 1. 基础流程图​​ 语法结构 用 mermaid 包裹代码块,指定方向后定义节点和连接线&#xff1a…

Java中使用自定义序列化器:自动添加View字段的实现与应用

Java 中 BigDecimal 序列化器:自动添加 View 返回字段的实现与应用 在 Java 开发过程中,数据的序列化与反序列化是非常重要的环节。当我们处理数值类型数据,特别是BigDecimal类型时,有时需要在序列化输出中添加额外的视图字段,以满足前端展示或者特定业务需求。本文将通过…

Java类一文分解:JavaBean,工具类,测试类的深度剖析

解锁Java类的神秘面纱:从JavaBean到测试类的深度剖析 前言一、JavaBean 类:数据的守护者(一)JavaBean 类是什么(二)JavaBean 类的特征(三)JavaBean 类的使用场景(四&…

机器学习-- 线性回归、逻辑回归

线性回归 线性回归是一种统计方法,用于发现变量之间的关系。在机器学习背景下,线性回归可找出特征(Feature)与标签(Lable)之间的关系。 例如,假设我们想要根据汽车的重量预测汽车的每加仑汽油行驶里程(mpg),并且我们有以下数据集: 线性回归方程 Linear regressi…

Lua再学习

因为实习的项目用到了Lua,所以再来深入学习一下 函数 函数的的多返回值 Lua中的函数可以实现多返回值,实现方法是再return后列出要返回的值的列表,返回值也可以通过变量接收到,变量不够也不会影响接收对应位置的返回值 Lua中传…

TCP协议十大核心特性深度解析:构建可靠传输的基石

TCP(传输控制协议)作为互联网的"交通指挥官",承载着全球80%以上的网络流量。本文将深入解析TCP协议的十大核心特性,通过原理剖析、流程图解和实战案例,揭示其如何实现高效可靠的数据传输。 一、面向连接的可…

基于 Spring Boot 瑞吉外卖系统开发(十三)

基于 Spring Boot 瑞吉外卖系统开发(十三) 查询套餐 在查询套餐信息时包含套餐的分类名,分类名称在category表中,因此这里需要进行两表关联查询。 自定义SQL如下: select s.* ,c.name as category_name from setmeal…

华为IP(6)

VLAN聚合 VLAN聚合产生的技术背景 在一般是三层交换机中,通常采用一个VLAN接口的方式实现广播域之间的互通,这在某些情况下导致了IP地址的浪费 因为一个VLAN对应的子网中,子网号、子网广播地址、子网网关地址不能用作VLAN内的主机IP地址&a…

深度解析IP静态的工作原理,IP静态的应用场景又哪些?

一、什么是IP静态? 当我们谈到“IP静态”时,大家可能首先想到的是与“动态IP”相对的概念。确实如此,静态IP是一种固定分配的IP地址,也就是说,在特定时间内,分配给你的IP地址不会有所更改——无论你完成多…

docker(四)使用篇一:docker 镜像仓库

前文我们已经介绍了 docker 并安装了 docker,下面我们将正式步入使用环节,本章是第一个使用教学:docker 镜像仓库。 一、什么是镜像仓库 所谓镜像仓库,其实就是负责存储、管理和分发镜像的仓库,并且建立了仓库的索引…

单片机开发软件

目录 纯编码 vscode Ardunio Keil 1. 集成化开发环境(IDE) 2. 多架构芯片支持 3. 高效的代码生成与优化 4. 强大的调试与仿真功能 5. 丰富的库函数与生态系统 6. 教育与企业级适用性 典型应用场景 半编码半图形化 STM32CUBEIED 1. 图形化配置…

【虚幻引擎】UE5独立游戏开发全流程(商业级架构)

本套课程我将会讲解一下知识 1.虚幻引擎的常用功能节点、模块包含但不限于动画模块、UI模块、AI模块、碰撞模块、伤害模块、背包模块、准心模块、武器模块、可拾取物品模块、死亡等模块。 2.整个游戏的设计思路(游戏架构),本套教程讲解了如…

ABP-Book Store Application中文讲解 - Part 2: The Book List Page

本章用于介绍如何创建Book List Page。 TBD 1. 汇总 ABP-Book Store Application中文讲解-汇总-CSDN博客 2. 前一章 ABP-Book Store Application中文讲解 - Part 1: Creating the Server Side 项目之间的引用关系。 目录 1. 多语言配置 1.1 zh-Hans.json 1.2 en.jso…

6、登录功能后端开发

6、登录功能后端开发 https://xiaoxueblog.com/ai/%E7%99%BB%E5%BD%95%E5%8A%9F%E8%83%BD%E5%90%8E%E7%AB%AF%E5%BC%80%E5%8F%91.html 1、新建用户表SQL脚本 -- CREATE DATABASE aicloud CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;-- 创建用户表 drop table if exi…

随机矩阵放大的方式 生成相位数据集,用于相位展开

import os import numpy as np import matplotlib.pyplot as plt from scipy.ndimage import zoom import gc from tqdm import tqdm from zernike import RZerndef wrap_phase(phase):"""将相位包裹到[-π, π]区间"""return np.angle(np.exp(1…

Java面试全记录:Spring Cloud+Kafka+Redis实战解析

Java面试全记录:Spring CloudKafkaRedis实战解析 人物设定 姓名:张伟(随机生成唯一姓名) 年龄:28岁 学历:硕士 工作年限:5年 工作内容: 基于Spring Cloud搭建微服务架构使用Kafka…

Java Socket编程完全指南:从基础到实战应用

Socket编程是构建网络应用的基石,Java通过java.net包提供了强大的Socket API。本文将深入解析Java Socket类的核心用法,涵盖TCP/UDP协议实现、多线程通信及性能优化技巧,助您快速掌握网络编程精髓。 一、Socket编程核心概念 1.1 网络通信模型…

vue实现导出echarts图片和table表格

安装依赖 "xlsx": "^0.18.5","xlsx-style": "^0.8.13""file-saver": "^2.0.5",工具类 toolUtil const autoHeight () > {let winHeight 0if (window.innerHeight) {winHeight window.innerHeight} else if…