【西瓜书】第一二章笔记

耽于学业,选择速记,后续再补。本笔记质量不高,敬请谅解。

关键词:

  • 监督学习(Supervised Learning):一种机器学习范式,其中模型在带有标签的数据集上进行训练。标签提供了正确的答案,算法通过对比预测结果与实际标签,调整模型参数以最小化误差。监督学习主要包括分类和回归两种任务。

  • 模型(Model):在机器学习中,模型是用来表示输入数据与输出结果之间关系的数学结构。模型可以是线性的,也可以是非线性的,复杂程度各不相同。模型的选择和训练是机器学习中的核心部分。

  • 学习算法(Learning Algorithm):用于从数据中自动构建模型的算法。学习算法通过优化某个目标函数,调整模型参数,使得模型在给定任务上表现得尽可能好。常见的学习算法包括线性回归、决策树、神经网络等。

  • 过拟合(Overfitting):模型在训练数据上表现得非常好,但在新数据上表现不佳的现象。过拟合通常是由于模型过于复杂,捕捉了训练数据中的噪声和细节,从而无法泛化到新的数据。

  • 欠拟合(Underfitting):模型在训练数据和新数据上都表现不佳的现象。这通常是由于模型过于简单,无法捕捉数据中的重要模式和结构,导致其预测能力有限。

  • 归纳偏好(Inductive Bias):指学习算法在训练过程中所遵循的假设或偏好。这些假设帮助算法在有限的数据上做出合理的泛化。归纳偏好决定了算法在面对不同数据时的表现,是影响模型泛化能力的重要因素。例如,“奥卡姆剃刀”原则是一种常见的归纳偏好,主张选择假设空间中最简单的模型。

  • 泛化(Generalization):指模型在处理未见过的新数据时的表现能力。一个模型的泛化能力决定了它是否能够从训练数据中学到对新数据同样适用的规律。泛化能力好的模型在训练数据和测试数据上都有良好的表现,而不过拟合或欠拟合。评估泛化能力的常用方法包括交叉验证和使用独立的验证集或测试集。

  • 机器学习三要素:模型、策略、算法。

机器学习是研究如何使计算机通过数据自动产生模型的算法。它不仅关注于模型的构建,还涉及如何评估这些模型的有效性,以及如何避免模型在训练数据上表现优异但在新数据上表现不佳的问题——也就是过拟合和欠拟合的平衡。

开篇强调了机器学习的本质:通过算法从数据中提取知识。在介绍监督学习时,清晰地区分了分类和回归两种主要任务,为后续更深入的学习打下了理论基础。过拟合和欠拟合的概念,如同机器学习领域中的双刃剑,一方面要求模型足够复杂以捕捉数据中的模式,另一方面又需要模型保持简洁以防过度依赖于训练数据的噪声。这种平衡的寻找,体现了机器学习实践中的艺术性和科学性并存的特点。归纳偏好概念,更是揭示了所有学习算法背后的哲学思考,即在面对无限可能的假设空间时,如何基于有限的训练数据做出合理的选择,这一点在“奥卡姆剃刀”原则中得到了体现,强调了简单性的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/30675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

makefile追加warning日志

在Makefile中,你不能直接“追加”warning日志到构建过程中,但你可以通过几种方式在构建时产生额外的警告或消息。以下是一些常用的方法: 使用echo或printf命令: 在Makefile的规则中,你可以使用echo或printf命令来输出警…

10招教你玩转Python循环优化

更多Python学习内容:ipengtao.com 在Python编程中,循环是最常见的控制结构之一。尽管Python的循环语法简单明了,但在处理大量数据或进行复杂计算时,循环可能会成为性能瓶颈。本文将介绍10种加速Python循环的方法,帮助在…

[Linux] 系统的基本架构特点

Linux系统的基本结构 Linux is also a subversion of UNIX,it follows the basic structure of UNIX 内核(kernel): 操作系统的基本部分 管理与硬件相关的功能,分模块进行 常驻模块:进程控制IO操作文件\磁盘访问 用户不能直接访问内核 外壳(s…

【杂记-浅谈OSPF协议和RIP协议区别】

RIP协议和OSPF协议的区别 1、两者概念不同2、运行方式不同3、底层运行方式不同 1、两者概念不同 路由信息协议RIP:分布式的基于距离向量的路由选择协议,RIP着重于数跳数;开放最短路径优先协议OSPF:使用分布式的基于链路状态的路由…

数据资产:打破数据孤岛,实现数据互联互通,构建企业智能化转型的重要桥梁。通过高效整合与利用数据资源,推动企业决策的科学化、精准化,助力企业迈向智能化新时代

目录 一、引言 二、数据孤岛现象及其影响 三、打破数据孤岛,实现数据互联互通 1、制定统一的数据标准和管理规范 2、建设统一的数据平台 3、推广数据共享和开放文化 四、数据资产在智能化转型中的重要作用 1、推动企业决策的科学化、精准化 2、优化企业运营…

盘点下常见 HDFS JournalNode 异常的问题原因和修复方法

盘点下常见 HDFS JournalNode 异常的问题原因和修复方法 最近在多个客户现场以及公司内部环境,都遇到了因为 JournalNode 异常导致 HDFS 服务不可用的问题,在此总结下相关知识。 1 HDFS HA 高可用和 JournalNode 概述 HDFS namenode 有 SPOF 单点故障…

【尚庭公寓SpringBoot + Vue 项目实战】移动端项目初始化(十九)

【尚庭公寓SpringBoot Vue 项目实战】移动端项目初始化(十九) 文章目录 【尚庭公寓SpringBoot Vue 项目实战】移动端项目初始化(十九)1、 SpringBoot配置2、Mybatis-Plus配置3、Knife4j配置4、导入基础代码5、导入接口定义代码6…

JavaScript保留两位小数

目录 使用toFixed方法 使用Math.round方法 使用toFixed方法 let number 123.456; let result Number(number.toFixed(2)); // 123.46 注意: 1. 返回字符串类型:toFixed 方法返回的是一个字符串类型的值,而不是数字类型。因此&#xf…

gradio快速入门 — Reactive Interfaces

Gradio自动刷新演示。 实时界面 你可以在界面中设置liveTrue让界面自动刷新,这样只要用户输入发生变化,界面就会重新计算。 import gradio as grdef calculator(num1, operation, num2):if operation "add":return num1 num2elif operati…

上海中腾食品科学餐饮管理铸就企业食堂新模式

在当今企业运营中,食堂不仅是员工用餐的场所,更是企业文化和管理水平的体现。随着餐饮行业的不断发展,科学合理的餐饮管理模式成为了企业食堂成功的关键。上海中腾食品科技有限公司以其独特的餐饮管理模式,成功打造了企业食堂的新…

Nginx 的配置和运行核心数

查看 Nginx 配置 Nginx 配置文件通常位于 /etc/nginx/nginx.conf 或 /usr/local/nginx/conf/nginx.conf 路径下。你可以使用以下命令查看这个文件的内容: cat /etc/nginx/nginx.conf在配置文件中找到 worker_processes 这一行,其值就是 Nginx 配置的工作…

CSS3中鲜为人知但非常强大的 Clip-Path 属性

CSS3中鲜为人知但非常强大的 Clip-Path 属性 在CSS3中,clip-path属性可以让我们快速创建各种各样的不规则图形,而无需使用图片或者复杂的绘图工具。它可以帮助我们实现一些非常出色的视觉效果,但遗憾的是它并不是很常见。 clip-path属性可以接受多种不同的值,比如polygon()、…

windows下安装IntelliJIDEA

windows下安装IntelliJIDEA 步骤1:下载IntelliJ IDEA 打开浏览器并访问IntelliJ IDEA下载页面. https://www.jetbrains.com/idea/download/选择合适的版本: Ultimate:付费版本,包含更多功能,适合专业开发。Community…

内核学习——3、自旋锁的作用及其实现

作用: 保护一段临界区的操作时独占的,不能由其他cpu或者线程同时访问破坏数据结构多核系统SMP: 主要考虑一个cpu进入临界区之后,其他CPU不能再去进入这个临界代码区单核系统: 不能被其他进程抢占单核系统自旋锁实现&am…

深入了解python生成器(generator)

生成器 生成器是 Python 中一种特殊类型的迭代器。生成器允许你定义一个函数来动态产生值,而不是一次性生成所有值并将它们存储在内存中。生成器使用 yield 关键字来逐个返回值。每次调用生成器函数时,函数会在 yield 语句暂停,并记住当前的…

静态网页发送基本请求

目录 一、 发送 GET 请求 1.不携带 url 参数的 GET 请求 2.携带 url 参数的 GET 请求 二、发送 POST 请求 三、处理响应 1.获取网页源代码 2.获取图片 一、 发送 GET 请求 当用户在浏览器的地址栏中直接输入某个 URL 地址…

海量数据处理利器 Roaring BitMap 原理介绍

作者:来自 vivo 互联网服务器团队- Zheng Rui 本文结合个人理解梳理了BitMap及Roaring BitMap的原理及使用,分别主要介绍了Roaring BitMap的存储方式及三种container类型及Java中Roaring BitMap相关API使用。 一、引言 在进行大数据开发时,…

网络安全,怎么搭建Python防范环境

注意:本文的下载教程,与以下文章的思路有相同点,也有不同点,最终目标只是让读者从多维度去熟练掌握本知识点。 下载教程: Python网络安全项目开发实战_搭建Python防范环境_编程案例解析实例详解课程教程.pdf 构建一个Python环境下的网络安全防范体系是一个涉及多个层面和步…

公域+私域运营思路框架

本次分享公域私域运营思路框架,内容包括私域原则、公域引流、让利思维、价值体系等内容,让你的流量保持高留存、高活跃。

常用的特征分析和特征工程

案例背景 我们将使用一个公开数据集,数据集中包含客户的画像、行为以及标签。我们的目标是通过特征工程提升模型的预测准确性。 数据加载与初步探索 首先,我们需要加载数据并进行初步探索,以了解数据的基本情况。 import pandas as pd import numpy as np# 加载数据集 d…