机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值

机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值

资料取自《零基础学机器学习》。
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、买菜称重比喻 🥦(类似材料2的异质数据说明[2])

想象超市有2种秤:

  • 磅秤(公斤):西红柿称重1.5kg → 1500g
  • 市斤秤(斤):茄子称重3斤 → 1500g

虽然实际重量相同,但模型会将"斤"单位误判为小茄子[2]

原数据
单位是否统一?
模型可直接使用
标准化处理(均值=0,标准差=1)
公平比较所有特征

二、标准化公式厨房教程 💡(引用材料1的标准差公式[1]

配方:
原始数据 → 均值减法 → 标准差除法

像炒菜先洗菜再切块,保证原材料处理统一

具体步骤

  1. 计算集体均值

    • 所有身高相加 ÷ 人数 = 平均身高(类似班级平均分)
    • 所有体重相加 ÷ 人数 = 平均体重
  2. 测量差异幅度(标准差)

    每个人身高与均值的差值
    平方求和
    (平方和)/人数=方差
    开平方得标准差σ
  3. 转换标准值

    • (原值 - 均值)÷ 标准差 = 标准化值[1]

三、运动员体检案例 🏃(结合材料6的图像数据处理[6]

初始数据

姓名身高(cm)体重(kg)
张三19895
李四17570
王五16758

标准化后

姓名z_身高z_体重
张三1.731.44
李四0.120.20
王五-0.85-1.05

通过材料2的归一化处理思想[2],消除单位差异


四、代码实操手册 💻(参考材料6的MNIST数据处理[6]

from sklearn.preprocessing import StandardScaler
import pandas as pd# 创建示例数据
data = [[198,95], [175,70], [167,58]]
df = pd.DataFrame(data, columns=['身高','体重'])# 初始化标准化器(引用材料4的正则化对比[4])
scaler = StandardScaler()# 关键步骤(参考材料1的数学原理[1])
scaled_data = scaler.fit_transform(df)print("标准化后数据:\n", scaled_data)
"""
输出:
[[ 1.73241126  1.43724252][ 0.1220428   0.20219468][-0.85445406 -1.05081984]]
"""

五、常见误区对照表 ⚠️(类似材料2的特征缩放原则[2]

错误类型后果示例正确处理技巧
未区分训练/测试集测试数据使用训练集参数存储训练集的均值和标准差 [3]
忽略离散型特征性别(0/1)被错误缩放只对连续型特征标准化 [2]
重复标准化两次缩放导致数据失真sca ler只拟合一次 [6]

六、服装厂质检案例 🧥(参考材料5的混淆矩阵评估[5]

某工厂测量T恤尺寸误差(厘米):

43% 57% 标准化前后的质检准确率 标准化前 标准化后

通过3次实验对比发现:
标准化后的误差检测准确率提升22%(类似材料5的模型评估[5])


七、知识要点总结 📌

  1. 运算原理:均值归零 → 标准差归一[1]
    • 优点:消除量纲差异,加速模型训练(引用材料6的图像处理实战[6])
  2. 适用场景:包含不同量级的连续型数据(温度/湿度/光照强度)
  3. 对比特征:与规范化(归一化)的核心区别在于改变数据分布[4]
  4. 验证方法:使用标准差检查处理结果是否≈1,均值≈0[1]

目录:总目录
上篇文章:机器学习第十讲:异常值检测 → 发现身高填3米的不合理数据
下篇文章:机器学习第十二讲:特征选择 → 选最重要的考试科目做录取判断


[1]《零基础学机器学习》的标准差公式与数据标准化流程
[2]《零基础学机器学习》的异质数据处理原则
[3]《零基础学机器学习》的张量变形方法基础
[4]《零基础学机器学习》的正则化与标准化对比说明
[6]《零基础学机器学习》的标准化实战应用场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

less中使用 @supports

在Less中使用supports supports 是CSS的条件规则,用于检测浏览器是否支持特定的CSS属性或值。在Less中,你可以像在普通CSS中一样使用supports,同时还能利用Less的特性来增强它。 基本用法 /* 检测浏览器是否支持display: flex */ supports …

LeetCode Hot100 (1/100)

目录 一、有关数组和动态数组的排序(sort函数) 1.普通数组的排序 基本用法 降序排序 2.vector的排序 基本用法 降序排序 二、数组长度和一些vector的基本语法 1. 静态数组长度计算​ 2. 安全获取数组长度(C17 起)​ 3.vecto…

通过MCP让LLM调用系统接口

场景 MCP的出现大大丰富了LLM的功能,对于存量系统,我们希望能让模型调用已有的接口,以最小的成本让AI能够获取系统内部数据。因此我们开发了一个名为http-api-call的MCP Server,来支持模型到内部API的调用 实现方案 使用用标准…

基于Transformer的多资产收益预测模型实战(附PyTorch实现与避坑指南)

基于Transformer的多资产收益预测模型实战(附PyTorch模型训练及可视化完整代码) 一、项目背景与目标 在量化投资领域,利用时间序列数据预测资产收益是核心任务之一。传统方法如LSTM难以捕捉资产间的复杂依赖关系,而Transformer架构通过自注意力机制能有效建模多资产间的联…

养生:打造健康生活的全方位策略

在生活节奏不断加快的当下,养生已成为提升生活质量、维护身心平衡的重要方式。从饮食、运动到睡眠,再到心态调节,各个方面的养生之道共同构建起健康生活的坚实基础。以下为您详细介绍养生的关键要点,助您拥抱健康生活。 饮食养生…

轻型汽车鼓式液压制动器系统设计

一、设计基础参数 1.1 整车匹配参数 参数项数值范围整备质量1200-1500kg最大设计车速160km/h轮胎规格195/65 R15制动法规要求GB 12676-2014 1.2 制动性能指标 制动减速度:≥6.2m/s(0型试验) 热衰退率:≤30%(连续10…

无法更新Google Chrome的解决问题

解决问题:原文链接:【百分百成功】Window 10 Google Chrome无法启动更新检查(错误代码为1:0x80004005) google谷歌chrome浏览器无法更新Chrome无法更新至最新版本? 下载了 就是更新Google Chrome了

【AAAI 2025】 Local Conditional Controlling for Text-to-Image Diffusion Models

Local Conditional Controlling for Text-to-Image Diffusion Models(文本到图像扩散模型的局部条件控制) 文章目录 内容摘要关键词作者及研究团队项目主页01 研究领域待解决问题02 论文解决的核心问题03 关键解决方案04 主要贡献05 相关研究工作06 解决…

Kuka AI音乐AI音乐开发「人声伴奏分离」 —— 「Kuka Api系列|中文咬字清晰|AI音乐API」第6篇

导读 今天我们来了解一下 Kuka API 的人声与伴奏分离功能。 所谓“人声伴奏分离”,顾名思义,就是将一段完整的音频拆分为两个独立的轨道:一个是人声部分,另一个是伴奏(乐器)部分。 这个功能在音乐创作和…

Idea 设置编码UTF-8 Idea中 .properties 配置文件中文乱码

Idea 设置编码UTF-8 Idea中 .properties 配置文件中文乱码 一、设置编码 1、步骤: File -> Setting -> Editor -> File encodings --> 设置编码二、配置文件中文乱码 1、步骤: File -> Setting -> Editor -> File encodings ->…

Xilinx FPGA PCIe | XDMA IP 核 / 应用 / 测试 / 实践

注:本文为 “Xilinx FPGA 中 PCIe 技术与 XDMA IP 核的应用” 相关文章合辑。 图片清晰度受引文原图所限。 略作重排,未整理去重。 如有内容异常,请看原文。 FPGA(基于 Xilinx)中 PCIe 介绍以及 IP 核 XDMA 的使用 N…

sqli—labs第六关——双引号报错注入

一:判断输入类型 首先测试 ?id1,?id1,?id1",页面回显均无变化 所以我们采用简单的布尔测试,分别测试数字型,单引号,双引号 然后发现,只有在测试到双引号注入的时候符合关键…

【TroubleShoot】禁用Unity Render Graph API 兼容模式

使用Unity 6时新建了项目,有一个警告提示: The project currently uses the compatibility mode where the Render Graph API is disabled. Support for this mode will be removed in future Unity versions. Migrate existing ScriptableRenderPasses…

图形学、人机交互、VR/AR、可视化等领域文献速读【持续更新中...】

(1)笔者在时间有限的情况下,想要多积累一些自身课题之外的新文献、新知识,所以开了这一篇文章。 (2)想通过将文献喂给大模型,并向大模型提问的方式来快速理解文献的重要信息(如基础i…

Hadoop-HDFS-Packet含义及作用

在 HDFS(Hadoop Distributed File System)中,Packet 是数据读写过程中用于数据传输的基本单位。它是 HDFS 客户端与数据节点(DataNode)之间进行数据交互时的核心概念,尤其在写入和读取文件时,Pa…

显示的图标跟UI界面对应不上。

图片跟UI界面不符合。 要找到对应dp的值。UI的dp要跟代码里的xml文件里的dp要对应起来。 蓝湖里设置一个宽度给对应上。然后把对应的值填入xml. 一个屏幕上的图片到底是用topmarin来设置,还是用bottommarin来设置。 因为第一节,5,7 车厢的…

【taro3 + vue3 + webpack4】在微信小程序中的请求封装及使用

前言 正在写一个 以taro3 vue3 webpack4为基础框架的微信小程序,之前一直没有记咋写的,现在总结记录一下。uniapp vite 的后面出。 文章目录 前言一、创建环境配置文件二、 配置 Taro 环境变量三、 创建请求封装四、如何上传到微信小程序体验版1.第二…

LeetCode:513、找树左下角的值

//递归法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right) {* t…

采用均线策略来跟踪和投资基金

策略来源#睿思量化#小程序 截图来源#睿思量化#小程序 在基金投资中,趋势跟踪策略是一种备受关注的交易方法。本文将基于两张关于广发电子信息传媒股票 A(代码:005310)的图片资料,详细阐述这一策略的应用与效果。 从第…

leetcode刷题---二分查找

力扣题目链接 二分查找算法使用前提&#xff1a;有序数组&#xff1b;数组内无重复元素 易错点&#xff1a; 1.while循环的边界条件&#xff1a;如到底是 while(left < right) 还是 while(left < right) 2.if条件后right&#xff0c;left的取值&#xff1a;到底是 right …