机器学习(二十一):错误分析、创造数据和迁移学习

一、错误分析

假设交叉验证集一共有500个数据点,模型拟合结果中,有100个数据点有误。

错误分析就是,手动地分析这100个错误数据(或随机选择一些错误数据),根据它们的共同属性、共同特征分类,然后根据特征进一步优化模型。

二、创造数据

首先,获取大量数据的成本很高,错误分析可以告诉我们,着重获取某一方面/特征的数据,而不是获取所有数据,可以减少成本。

当需要获取更多数据时,常用的添加数据的方法有数据增强和数据合成:

2.1 数据增强

数据增强:对原数据进行扭曲或改变,创造更多格外数据,常用于图像和语言类型的任务

例如,图像识别:通过把已有的图像进行旋转、放大、缩小、调整对比度、镜像、网格扭曲图像,创造更多的额外数据

语音识别:增加噪音背景,降低音质(像是在坏的录音机录制一样的声音)

2.2 数据合成

数据合成:创造合成,主要应用于计算机视觉任务。

例如:识别图像中文字的任务:可以在文本编辑器随机敲入一些文本,把不同字体、对比度、颜色的字体进行截图,创造合成数据。

          

三、迁移学习

对于没有大量数据的学习任务,可以使用迁移学习,使用来自不同任务的数据来帮助训练模型。

第一步:监督预训练

在拥有大型数据集的任务中,预先训练神经网络。例如此任务从大量图片中训练识别1000种分类:猫、狗、车、人等等,训练出隐藏层的参数。

第二步:微调

在数据量小的任务中,使用预先训练好的神经网络,隐藏层参数使用预先训练出的参数,然后使用本任务的数据进行参数微调。例如本任务需要从少量图片中训练识别数字0-9,可以使用上一步训练好的参数w1-w4,b1-b4,然后使用本任务的输入图片微调参数。

如果数据量很小,就只需要微调输出层参数;如果数据量大,可以微调所有参数。

微调的前提是使用和预训练相同类型的输入。

常用的操作:

  1. 下载具有相同类型的、在大型数据集上预先训练过的神经网络
  2. 使用自己的数据进行微调

四、机器学习项目的完整周期

机器学习项目的完整周期:

部署到生产环境以后,需要继续监控系统和维护系统,如果有需要,需要获取更多数据,重新训练模型。

学习来源:吴恩达机器学习,13.1-13.6节

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/876522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在QT中使用多线程并发服务器(C++)

什么是多线程并发服务器?在QT里如何使用多线程并发服务器呢? 多线程并发服务器是一种网络服务器设计,它能够同时处理多个客户端的请求。在多线程服务器中,主线程负责监听和接受来自客户端的连接请求,每当有一个新的连…

C++(week13): C++基础: 标准模板库 STL

文章目录 零、标准模板库 STL一、容器 (Container)1.序列式容器(1)vector2.五种遍历10.vector的迭代器失效问题 (2)deque(3)list 2.关联式容器(1)set4.set的查找(2)find() 8.set中存储自定义类型:三种方法 (2)multiset7.multiset的特殊操作:bound系列函数…

【前端 15】Vue生命周期

Vue生命周期 在Vue.js中,了解组件的生命周期对于开发者来说是至关重要的。Vue的生命周期指的是Vue实例从创建到销毁的一系列过程,每个阶段都对应着特定的生命周期钩子(或称为生命周期方法),允许我们在不同的时间点加入…

SQL Server 端口设置教程

引言 你好,我是悦创。 在配置 SQL Server 的过程中,设置正确的端口非常关键,因为它影响到客户端如何连接到 SQL Server 实例。默认情况下,SQL Server 使用 TCP 端口 1433,但在多实例服务器上或出于安全考虑&#xff…

【网络安全】AWS S3 Bucket配置错误导致敏感信息泄露

未经许可,不得转载。 文章目录 前言技术分析正文 前言 AWS(Amazon Web Services)是亚马逊公司提供的一个安全的云服务平台,旨在为个人、公司和政府机构提供计算能力、存储解决方案、内容交付和其他功能。作为全球领先的云服务提供…

Autodesk Revit v2025 激解锁版下载及安装教程 (三维建模软件)

前言 Revit是欧特克公司知名的三维建模软件,是建筑业BIM体系中使用最广泛的软件之一,其核心功能是三维建筑模型参数化设计、渲染效果图、算量,土建建模、机电建模、用来帮助工程师在施工前精确模拟阶段。 一、下载地址 下载链接&#xff1…

体育赛事中的AI运用

7月24日,国际奥委会(IOC)举办了新闻发布会,宣布计划在2024年巴黎奥运会上展示一系列创新的人工智能(AI)技术。这次会议不仅是对即将到来的奥运赛事的预热,也深入探讨了人工智能在体育领域可能带…

【Rust光年纪】探索Rust语言中的数据压缩与解压:六款优秀库全面评测

深度剖析:Rust语言中的六款顶尖压缩解压库 前言 在软件开发中,数据压缩和解压是十分常见的需求。随着Rust语言的流行,越来越多的开发者开始寻找适用于Rust的压缩和解压库。本文将介绍几个用于Rust语言的压缩和解压库,包括它们的…

快速重装系统

挑选系统 https://d1506.xy58.net/202002/Js_GhostWin7z_x64_2020T.iso WIN11镜像 安装PE启动U盘安装工具 本地安装

【机器学习】深入理解损失函数(Loss Functions)

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 深入理解损失函数(Loss Functions)什么是损失函数?常见损失函数类型1. 均方误差…

【C++】set的使用

🔥个人主页: Forcible Bug Maker 🔥专栏: STL || C 目录 🌈前言🌈关于set🔥容量函数emptysize 🔥Modifiersinserteraseclear 🔥Operationsfindcountlower_bound和upper_…

计算机本科,硕士如何入门生信

参考 该如何自学入门生物信息学-(很好的入门指导) 【【推荐课程】北京大学生物信息学:学习方法(完整带课件)】 AI 作为计算机本科背景的硕士生,入门生物信息学(生信)的过程可以按以下步骤进行&#xff1a…

前端必知必会-head元素

文章目录 HTML - Head 元素HTML <title> 元素HTML <style> 元素HTML <link> 元素HTML <meta> 元素设置viewportHTML <script> 元素HTML <base> 元素总结 HTML - Head 元素 HTML <head> 元素是以下元素的容器&#xff1a;<title&…

Lesson 51 A pleasant climate

Lesson 51 A pleasant climate 词汇 Greece n. 希腊 Greek a. 希腊的&#xff0c;希腊语 搭配&#xff1a;Greek gift 不怀好意的礼物 例句&#xff1a;他的电脑是不怀好意的礼物。    His computer is a Greek gift. climate n. 气候 长时间&#xff0c;不容易更改的 we…

一键将桌面资料存到d盘的工具,小巧、绿色、免费、免安装

为了提升我们的系统稳定性以及资料的安全性&#xff0c;建议大家将电脑桌面的资料默认路径设置为D盘或其他磁盘&#xff0c;这样不仅会减少系统盘的占用空间&#xff0c;在系统盘出现故障时我们还可以通过pe工具备份桌面的资料。虽然我们也可以通过一些操作来修改桌面文件以及我…

【Unity UGUI】Button组件:点击之间,触发无限可能

在Unity的UGUI系统中&#xff0c;Button组件是构建交互式用户界面不可或缺的元素。它不仅响应用户的点击操作&#xff0c;还可以通过视觉效果和声音反馈增强用户体验。本文将详细介绍Button组件的使用方法、自定义技巧以及如何利用它创建响应式设计。 Button组件简介 Button是…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《考虑电动汽车动态拥堵的配电网灵活性资源双层优化调度 》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

嵌入式Python、决策树算法、SQLite、Flask、树莓派、机器学习:基于算法自主决策的智能家居系统(代码示例)

项目概述 随着物联网技术的快速发展&#xff0c;智能家居系统越来越普及&#xff0c;成为现代家庭生活的重要组成部分。本文将介绍一个基于Raspberry Pi和Arduino的智能家居算法控制系统的硬件平台。该系统能够通过传感器采集环境数据&#xff0c;并利用机器学习算法进行分析与…

大数据的数据质量有效提升的研究

大数据的数据质量有效提升是一个涉及多个环节和维度的复杂过程。以下是从数据采集、处理、管理到应用等方面&#xff0c;对大数据数据质量有效提升的研究概述&#xff1a; 一、数据采集阶段 明确采集需求&#xff1a;在数据采集前&#xff0c;需明确数据需求&#xff0c;包括…

VMware、Docker - 让虚拟机走主机代理,解决镜像封禁问题

文章目录 虚拟机全局代理配置找到 VMnet8 的 IPv4 地址代理相关配置虚拟机代理配置 Docker 代理配置修改镜像修改 Docker 代理配置 虚拟机全局代理配置 找到 VMnet8 的 IPv4 地址 a&#xff09;打开此电脑&#xff0c;输入 “控制面板”&#xff0c;然后回车. b&#xff09;之…