【动手学深度学习】1.1~1.2 机器学习及其关键组件


目录

  • 一、引言
    • 1.1. 日常生活中的机器学习
    • 1.2. 机器学习中的关键组件
      • 1)数据
      • 2)模型
      • 3)目标函数
      • 4)优化算法


一、引言

1.1. 日常生活中的机器学习

应用场景

以智能语音助手(如Siri、Alexa)的唤醒词识别为例,麦克风采集的音频数据(每秒约4.4万次采样)无法通过传统编程直接关联到特定指令。机器学习通过分析大量标记数据(含/不含唤醒词的音频),自动构建输入(音频)到输出(是否触发)的映射关系。

图1.1.1 识别唤醒词
在这里插入图片描述

模型与参数

模型是由参数控制的灵活算法,参数如同“旋钮”,调整模型行为。例如,同一模型族可适配不同唤醒词(“Alexa”或“Hey Siri”)。

数据集(dataset):批量数据样本;

模型(model):任一调整参数后的程序;

模型族:所有不同程序(输入-输出映射)的集合;

学习算法(learning algorithm):使用数据集来选择参数的元程序;

学习(learning):是一个训练(train)模型的过程;指自主提高模型完成某些任务的效能。

机器学习本质:

通过数据编程(Programming with Data),用数据集而非硬编码规则定义程序行为。例如,用大量猫狗图片训练分类器,使其输出区分两者的数值。

训练过程

  • 从一个随机初始化参数的“无智能”模型开始;

  • 获取一些数据样本;

  • 调整参数,使模型在这些样本中表现得更好;

  • 重复第(2)步和第(3)步,直到模型在表现良好。

图1.1.2 一个典型的训练过程
在这里插入图片描述

.

1.2. 机器学习中的关键组件

机器学习的关键组件:

  • 可以用来学习的数据(data)

  • 如何转换数据的模型(model)

  • 一个目标函数(objective function),用来量化模型的有效性;

  • 调整模型参数以优化目标函数的算法(algorithm)

.

1)数据

可以用来学习的数据(data);

每个数据集由一个个样本(example, sample) 组成,大多时候,它们遵循独立同分布(independently and identically distributed, i.i.d.)。

样本有时也叫做数据点(data point)数据实例(data instance); 通常每个样本由一组称为特征(features,或协变量(covariates))的属性组成。 机器学习模型会根据这些属性进行预测。在上面的监督学习问题中,要预测的是一个特殊的属性,它被称为标签(label,或目标(target))。

当每个样本的特征类别数量都是相同时,其特征向量是定长的,这个长度被称为数据的维数 (dimensionality)。 固定长度的特征向量是一个方便的属性,它可以用来量化学习大量样本。

.

2)模型

转换数据的模型(model);

大多数机器学习会涉及到数据的转换。比如通过摄取到的一组传感器读数预测读数的正常与异常程度。

深度学习与经典方法的区别主要在于:前者关注的功能强大的模型,这些模型由神经网络错综复杂的交织在一起,包含层层数据转换,因此被称为深度学习(deep learning)

.

3)目标函数

目标函数(objective function),用来量化模型的有效性;

“学习”是指自主提高模型完成某些任务的效能。

在机器学习中,我们需要定义模型的优劣程度的度量,这个度量在大多数情况是“可优化”的,这被称之为目标函数(objective function)

我们通常定义一个目标函数,并希望优化它到最低点。 因为越低越好,所以这些函数有时被称为损失函数(loss function,cost function)。 但这只是一个惯例,我们也可以取一个新的函数,优化到它的最高点。 这两个函数本质上是相同的,只是翻转一下符号。

当任务在试图预测数值时,最常见的损失函数是平方误差(squared error),即预测值与实际值之差的平方。 当试图解决分类问题时,最常见的目标函数是最小化错误率,即预测与实际情况不符的样本比例。

通常,损失函数是根据模型参数定义的,并取决于数据集。 在数据集上,通过最小化总损失来学习模型参数的最佳值。为训练而收集数据集,称为训练数据集(training dataset,或训练集(training set))。 然而,在训练数据上表现良好的模型,并不一定在“新数据集”上有同样的性能,这里的“新数据集”通常称为测试数据集(test dataset,或测试集(test set))。

当一个模型在训练集上表现良好,测试集上表现不好时,这个模型被称为**过拟合(overfitting)**的。

.

4)优化算法

当获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出最佳参数,以最小化损失函数。

深度学习中,大多流行的优化算法常基于的基本方法–-梯度下降(gradient descent)。 简而言之,在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进行少量变动,训练集损失会朝哪个方向移动。 然后,它在可以减少损失的方向上优化参数。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch针对不同电脑配置详细讲解+安装(CPU)

一、前言 安装pytorch前,应按照我前边的博文中,安装完anaconda和pycharm,并且配置完环境变量以后哈。 Pytorch是什么? 它是一个库,是一个开源的机器学习框架,专注于深度学习任务,由Facebook的人工智能研…

[python] 轻量级定时任务调度库schedule使用指北

schedule是一款专为简化定时任务调度而设计的Python库,它通过直观的语法降低了周期性任务的实现门槛。作为进程内调度器,它无需额外守护进程,轻量且无外部依赖,适合快速搭建自动化任务。不过,该库在功能完整性上有所取…

React的合成事件(SyntheticEventt)

文章目录 前言 前言 React的合成事件(SyntheticEvent)是React为了统一不同浏览器的事件处理行为而封装的一套跨浏览器事件系统。它与原生事件的主要区别如下: 1. 事件绑定方式 • 合成事件:使用驼峰命名法绑定事件(如…

报表控件stimulsoft教程:如何在报表和仪表板中创建热图

Stimulsoft Ultimate (原Stimulsoft Reports.Ultimate)是用于创建报表和仪表板的通用工具集。该产品包括用于WinForms、ASP.NET、.NET Core、JavaScript、WPF、PHP、Java和其他环境的完整工具集。无需比较产品功能,Stimulsoft Ultimate包含了…

[免费]苍穹微信小程序外卖点餐系统修改版(跑腿点餐系统)(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序医院预约挂号管理系统(uni-appSpringBoot后端Vue管理端),分享下哈。 项目视频演示 【免费】苍穹微信小程序外卖点餐系统修改版(跑腿点餐系统)(SpringBoot后端Vue管理端) Java毕业设计…

Dify 快速上手 MCP!Java 搭建 MCP Server 接入 Dify详细实战攻略

近期,MCP协议在AI领域热度飙升,成为众多开发者和行业人士热议的焦点。下文先介绍MCP究竟是什么?再详细讲下 Dify DeepSeek Java开发 MCP server 实战。 一、MCP的基本概念 MCP,全称为模型上下文协议(Model Context P…

力扣992做题笔记

左神做法的理论依据 我们可以通过 集合的包含关系 和 具体示例枚举 来直观理解这一推导过程。以下结合题目示例 1 进行详细说明: 示例 1 分析 输入:nums [1,2,1,2,3], k 2 目标:计算恰好包含 2 种不同整数 的子数组个数。 步骤一集合 A…

Kubernetes 运维操作手册:从 etcd 快照进行精确恢复

1 5 步实现 etcd 精确恢复 将快照恢复到本地 etcd 数据目录。使用恢复的数据启动本地 etcd 实例。使用 etcdctl 查询特定键(例如,ConfigMap)。使用 auger 解码以提取干净的 YAML。使用 kubectl 申请恢复到您的实时集群。 本指南将指导您从 et…

LeetCode Hot100刷题——合并区间

56. 合并区间 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:i…

《Metasploit框架核心模块解析与安全防护实践》​

目录 ​​一、框架模块化设计与安全验证价值​​ ​​1. 漏洞验证模块(Exploit Modules)​​ ​​2. 安全评估模块(Auxiliary Modules)​​ ​​3. 安全响应模块(Post-Exploitation)​​ ​​4. 载荷安全…

Cribl 中 Parser 扮演着重要的角色 + 例子

先看文档: Parser | Cribl Docs Parser The Parser Function can be used to extract fields out of events or reserialize (rewrite) events with a subset of fields. Reserialization will preserve the format of the events. For example, if an event contains comma…

程序设计实践--排序(1)

&#xff11;、插入排序&#xff08;一个数组&#xff09; #include<bits/stdc.h> using namespace std; const int N1e35; int a[N]; int n; int main(){cin>>n;for(int i1;i<n;i){cin>>a[i];}for(int i1;i<n;i){int va[i];int ji-1;while(j>1&am…

MAC电脑中右键后复制和拷贝的区别

在Mac电脑中&#xff0c;右键菜单中的“复制”和“拷贝”操作在功能上有所不同&#xff1a; 复制 功能&#xff1a;在选定的位置创建一个与原始文件相同的副本。快捷键&#xff1a;CommandD用于在当前位置快速复制文件&#xff0c;CommandC用于将内容复制到剪贴板。效果&…

新能源汽车焊接智能节气阀

在新能源汽车产业迅猛发展的浪潮中&#xff0c;制造工艺的优劣直接关系到车辆的性能、安全与市场竞争力。焊接&#xff0c;作为新能源汽车生产流程里的关键一环&#xff0c;无论是构建车身框架&#xff0c;还是连接电池模组&#xff0c;其质量的好坏都起着决定性作用。而在焊接…

Linux:面试题

1. 什么是中断和异常&#xff1f; 中断&#xff1a;由外部设备&#xff08;如键盘、网卡&#xff09;触发的异步事件&#xff0c;用于通知 CPU 有紧急事件需要处理。 异常&#xff1a;由 CPU 内部执行指令时产生的同步事件&#xff08;如除零错误、缺页异常&#xff09;&#…

linux关闭某端口暂用的进程

查看是哪个端口暂用 sudo netstat -tulpn | grep :80根据图片 显示 80端口暂用的 进程id是 3002 结束进程id为3002的进程 sudo kill -9 3002

【学习心得】Jupyter 如何在conda的base环境中其他虚拟环境内核

如果你在conda的base环境运行了jupyter lab打开了一个ipynb文本&#xff0c;此时选择的内核是base虚拟环境的Python内核&#xff0c;如果我想切换成其他conda虚拟环境来运行这个文件该怎么办&#xff1f;下面我们试着还原一下问题&#xff0c;并且解决问题。 【注】 这个问题出…

React Flow 边的基础知识与示例:从基本属性到代码实例详解

本文为《React Agent&#xff1a;从零开始构建 AI 智能体》专栏系列文章。 专栏地址&#xff1a;https://blog.csdn.net/suiyingy/category_12933485.html。项目地址&#xff1a;https://gitee.com/fgai/react-agent&#xff08;含完整代码示​例与实战源&#xff09;。完整介绍…

ZooKeeper 原理解析及优劣比较

大家好&#xff0c;这里是架构资源栈&#xff01;点击上方关注&#xff0c;添加“星标”&#xff0c;一起学习大厂前沿架构&#xff01; 引言 在分布式系统中&#xff0c;服务注册、配置管理、分布式锁、选举等场景都需要一个高可用、一致性强的协调服务。Apache ZooKeeper 凭…

模糊照片变清晰:照片高清修复 ComfyUI 使用教学

模糊照片变清晰 满心欢喜地翻出旧相册&#xff0c;想重温那些美好的回忆&#xff0c;结果照片却模糊不清&#xff0c;根本看不清当年的模样&#xff1b;又或者精心拍摄了一张超有氛围感的照片&#xff0c;结果因为手抖或者光线问题&#xff0c;变得模糊&#xff0c;无法发朋友圈…