机器学习与深度学习2:梯度下降算法和BP反向传播算法

梯度下降算法:

算法原理

        上一章我们已知神经网络算法就是求解拟合函数,通过线性变换和非线性变换来得出损失函数最小的模型。那么是如何进行求解的呢,其中之一就是梯度下降算法。

        如图,当我们需要求解拟合曲线时,如何找到拟合曲线?步骤就是首先随机一个w值,画出过原点的y = wx的图像,再根据误差调整这个曲线,最终得到拟合函数。

        因此我们根据这个步骤开始分析,首先随机出的这个曲线称为预测函数,然后根据误差,求出代价函数,再根据代价函数调整曲线,最终得到拟合最好的预测函数。下面我们根据下图进行算法流程讲解:

 算法流程

预测函数:y = wx

第一个点的误差为:e_{1} = (w*x_1 - y_1)^{2} ,所有样本点的均方差就是代价函数

代价函数::e = \frac{1}{n}((x_1^2+...+x_n^2)w^2+(-2x_1y_1-...-2x_1y_1)w + (y_1^2+...+y_n^2))

         可以看出误差函数图像为一个开口向向上的二次函数,具有极小值点,因此我们找到这个最低点的w值,就得到了最终的拟合曲线。

        实际情况中,我们要求解的不一定是一元二次的函数,是多元甚至更高次的函数的最小值,因此我们就要使用算法来寻找这个最低点,寻找最低点的算法之一就是梯度下降算法。

        因此,我们定义(e,w)函数图像中某一个位置的陡峭程度为梯度,对应就是斜率k,我们根据梯度往下搜索就会找到最低点。那么该如何搜索,每次的步长改迈多大?这时候就要引入学习率的概念:

       学习率:首先梯度下降的过程是使用斜率k作为基准步长,越陡峭下降越快,越平滑下降越慢,这样就能最快达到最低点,由于斜率与x的关系不确定,因此我们就要乘上一个参数控制步长大小,这个参数就是学习率,这样函数在适当的学习率下,可以快速准确地收敛到最小值的位置。

算法优化

在下降方法上,存在如下优化方法:

BGD:批量梯度下降算法,采用所有样本进行运算 ,速度慢,精确度高

SGD:随机梯度下降算法,采用随机样本进行计算,速度快,精准度低

MBGD:小批量梯度下降算法,采用随机小批量样本点进行运算,也叫最速下降法,这个方法最常用

在学习率上,存在如下优化方法:

AdGrad:动态学习率,经常更新的参数学习率就小一点,不常更新的参数学习率就大一点

RMSProp算法:优化动态学习率

AdaDelta算法:无需设置学习率

Adam算法:融合AdaGrad和RMSProp

Momentum算法:模拟动量,螺旋搜索前进,

BP反向传播算法 

        BP反向传播算法就是利用结果来反向更新参数的算法。

一次变化

        例如一个线性拟合,x经过w,b的线性拟合后变为y = wx + b

x ->(w,b)->\hat{y} = wx + b

损失函数:L = \frac{1}{2}(\hat{y} - y)^2

        其中\hat{y}是预测值,y为真实值,假设有一个真实样本为(x,y) = (1.5,0.8),随机出一个(w,b) = (0.8,2),得出\hat{y} = 1.4,根据损失函数求出损失L = 0.18,根据梯度下降算法,我们的目标是求出L对w和b的梯度值,也就是偏导数,然后再沿着梯度的反方向更新这两个参数

通过计算L对y的偏导求出L对w和b的偏导:

\frac{\partial L}{\partial y} = \hat{y} - y

\frac{\partial L}{\partial w} =\frac{\partial L}{\partial y}\frac{\partial y}{\partial w}=( \hat{y} - y)x

\frac{\partial L}{\partial b} =\frac{\partial L}{\partial y}\frac{\partial y}{\partial b}=\hat{y} - y

带入

 (x,y) = (1.5,0.8)

得:

\frac{\partial L}{\partial w} = 0.9, \frac{\partial L}{\partial b} = 0.6

假设学习率

\varepsilon = 0.1

更新下一次的w和b:

w_{k} = w -\varepsilon\frac{\partial L}{\partial w} = 0.71 

b_{k} = b -\varepsilon\frac{\partial L}{\partial b} = 0.1 4

 二次变换

         例如一个线性拟合,x经过w1,b1的线性拟合后变为y = wx + b,经过w2,b2的线性变换后为y 

x(w_1,b_1)y_1 = w_1x + b_1 →(w_2,b_2)y_2 = w_2x + b_2

 损失函数:L = \frac{1}{2}({y_2} - y)^2

求导过程如下:

在计算机中求导过程如下

代码如下:

 注:本文部分图片与文字来自哔站up主:风中摇曳的小萝卜,梗直哥丶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/57121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[计算机网络] 常见端口号

前言 ​ 常见的端口号是指互联网协议(如TCP/IP)中预留给特定服务使用的数字范围。它们主要用于标识网络应用程序和服务,并帮助数据包在网络中找到正确的接收方。 按协议类型划分 TCP协议端口: 21:FTP文件传输协议2…

Verilog基础:层次化标识符的使用

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 一、前言 Verilog HDL中的标识符(identifier)是一个为了引用而给一个Verilog对象起的名字,分为两大类:普通标识符大类和层次化标识符大类。…

H3C路由器交换机操作系统介绍

路由器 路由器的作用 连接具有不同介质的链路连接网络或子网,隔离广播对数据报文执行寻路和转发交换和维护路由信息 H3C 路由器系列 CR系列核心路由器SR系列高端路由器MSR系列路由器ER系列路由器 交换机 交换机的作用 连接多个以太网物理段,隔离冲…

HarmonyOS NEXT 应用开发实战(六、组件导航Navigation使用详解)

在鸿蒙应用开发中,Navigation 组件是实现界面间导航的重要工具。本文将介绍如何使用 Navigation 组件实现页面跳转及参数传递,确保你能轻松构建具有良好用户体验的应用。 当前HarmonyOS支持两套路由机制(Navigation和Router)&…

字典学习算法

分为固定基字典和学习型字典 学习型字典 是指通过训练大量与目标数据相似的数据,学习其特征获得的字典。字典学习主要包括两个阶段,一个是字典构建阶段,一个是利用字典进行样本表示阶段。 首次提出:最优方向法(Method …

Euporie 是一款功能强大、使用便捷的终端 Jupyter 交互工具,让Jupyter Notebook在终端下运行

在现代数据科学领域,Jupyter Notebook 已成为不可或缺的工具,它以其强大的交互性、可读性和可移植性而闻名。然而,在某些场景下,例如远程服务器、容器环境或仅仅个人偏好,使用终端进行操作更便捷。 Euporie 应运而生&a…

spring day 1021

ok了家人们,这周学习spring框架,我们一起去看看吧 Spring 一.Spring概述 1.1 Spring介绍 官网: https://spring.io/ 广义的 Spring : Spring 技术栈 (全家桶) 广义上的 Spring 泛指以 Spring Framework…

STM32L010F4 最小系统设计

画一个 STM32L010F4 的测试板子...... by 矜辰所致前言 最近需要用到一个新的 MCU: STM32L010F4 ,上次测试的 VL53L0X 需要移植到这个芯片上,网上一搜 STM32L010F4,都是介绍资料,没有最小系统,使用说明等。…

在VMware上创建虚拟机以及安装Linux操作系统,使用ssh进行远程连接VMware安装注意点 (包含 v1,v8两张网卡如果没有的解决办法)

一,VMware上创建虚拟机 1.VMware下载 1)点击VMware官网进入官网 网址:VMware by Broadcom - Cloud Computing for the EnterpriseOptimize cloud infrastructure with VMware for app platforms, private cloud, edge, networking, and security.https…

NAT工作原理详解:网络地址转换的关键角色

NAT工作原理详解:网络地址转换的关键角色 在现代计算机网络中,网络地址转换(NAT)扮演着至关重要的角色。它不仅仅是简单地将私有IP地址转换为公共IP地址,而是在多个方面保证了网络的正常运行和安全性。本文将详细讲解…

从网络请求到Excel:自动化数据抓取和保存的完整指南

背景介绍 在投资和财经领域,论坛一直是投资者们讨论和分享信息的重要平台,而东方财富股吧作为中国最大的财经论坛之一,聚集了大量投资者实时交流股票信息。对于投资者来说,自动化地采集这些发帖信息,并进行分析&#…

Maven私服架构

目录 1.maven私服介绍 1.1 私服介绍 1.2 Nexus介绍 2. maven私服实战 2.1 nexus安装 2.2 nexus仓库类型 2.3 将项目发布到私服 2.4 从私服下载jar包 2.5 将第三方jar包发布到私服 1.maven私服介绍 1.1 私服介绍 正式开发时,不同的项目组开发不同的工程。m…

《深度学习》 了解YOLO基本知识

目录 一、关于YOLO 1、什么是YOLO 2、经典的检测方法 1)one-stage单阶段检测 模型指标介绍: 2)two-stage多阶段检测 二、关于mAP指标 1、概念 2、IOU 3、关于召回率和准确率 4、示例 5、计算mAP 一、关于YOLO 1、什么是YOLO YOL…

工具_OpenSSL

文章目录 常见https证书类型生成nginx使用证书 一句话简介:一个开源的安全相关工具箱软件,apache license 官网:https://www.openssl.org/,这个官网只有Linux 安装包和 源码 windows下载网站:https://slproweb.com/pr…

深度学习-30-基于PyTorch搭建神经网络的全流程

文章目录 1 定义一个Class1.1 方法__init__()1.2 方法forward()2 定义一个实例2.1 定义网络2.2 训练步骤2.3 更新权重3 整体顺序3.1 通用流程3.2 示例应用3.2.1 准备数据3.2.2 通用流程4 参考附录1 定义一个Class pytorch的网络搭建,比tensorflow简单很多。 格式很好理解。 …

一文2500字从0到1实现压测自动化!

大家好,我是小码哥,最近工作有点忙,一直在实现压测自动化的功能,今天来分享一下实现思路 我所在的业务线现在项目比较少了,所以最近一个月我都没有做业务测试,需求开发完后RD直接走免测就上线,…

第十一课 Vue中的按键修饰符

Vue中的按键修饰符 Vue中的事件绑定中,键盘事件有些特殊,我们可以通过获取不同的键值操作不同键盘触发不同的事件 Vue为不同键盘定义了不同的键名 数字按键修饰符 根据不同的键值,可以获取不同的键盘按键 示例:获取回车键&am…

手机ip切换成全局模式怎么弄

在当今数字化时代,智能手机已成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,都离不开它的陪伴。随着网络技术的不断发展,手机IP地址的切换技术也逐渐走进大众视野,中,“全局模式” 作为IP切…

windows环境下vscode编写c语言连接mysql

创建一个文件夹test02 在文件夹中创建test.c文件 用vscode打开test02文件夹 自动生成tasks.json和launch.json文件,需要安装这里通C/C Runner插件来自动生成json文件和一些文件夹。 接下来配置mysql 本地已经安装了mysql数据库,此安装过程省略。 有…

030 elasticsearch查询、聚合

文章目录 查询聚合查询RestHighLevelClientElasticsearchRestTemplat SpringData对ES客户端的封装:ElasticsearchRestTemplate SpringData对CRUD的封装:ElasticsearchRepository 原生ES客户端:RestHighLevelClient 查询 package com.xd.cube…