【深度学习与实战】2.3、线性回归模型与梯度下降法先导案例--最小二乘法(向量形式求解)

为了求解损失函数 loss = (f(x)-y)^2 = (wx-y)^2对 w 的导数,并利用最小二乘法向量形式求解 w 的值‌

这是‌线性回归‌的平方误差损失函数,目标是最小化预测值 X_w 与真实值 y 之间的差距。

损失函数‌:
考虑多个样本的情况,损失函数为所有样本的平方误差之和:

L = (Xw-Y)^2

                      =( X w-Y )^{\top} ( X w-Y )

                                                         =w^{\mathsf{T}} X^{\mathsf{T}} X w-Y^{\mathsf{T}} X w-w^{\mathsf{T}} X^{\mathsf{T}} Y+Y^{\mathsf{T}} Y

  • L 是损失函数
  • X 是 n\times m 的设计矩阵(n个样本,m个特征)。
  • w是 m\times 1 的权重向量。
  • Y是 n\times 1 的目标值向量。
  • 对于两个列向量\partialb,它们的点积(内积)就是\partial ^Tb,  \partial ^T是向量 \partial 的转置

针对 f(x) =w^{\mathsf{T}} X^{\mathsf{T}} X w-Y^{\mathsf{T}} X w-w^{\mathsf{T}} X^{\mathsf{T}} Y+Y^{\mathsf{T}} Y函数求导,有一下性质:

\frac{\partial AB}{\partial B} = A^T,\frac{\partial A^TB}{\partial A} = B,\frac{\partial C^TAC}{\partial C} = 2AC

对每项求导 
 第一项   w^{\mathsf{T}} X^{\mathsf{T}} X w

        将 \frac{\partial C^TAC}{\partial C} = 2AC 公式代入得

        X^T \cdot w^T X w  \Rightarrow  X^T\cdot 2AC \Rightarrow 2X^TXw

        w^{\mathsf{T}} X^{\mathsf{T}} X w  = 2X^TXw

        其中  w^T  为 C^TX 为 Aw 为 c

第二项  Y^{\mathsf{T}} X w

        将 \frac{\partial AB}{\partial B} = A^T 公式代入得

       Y^{\mathsf{T}} X \cdot w\Rightarrow A^T \Rightarrow (Y^{\mathsf{T}} X)^T

         Y^{\mathsf{T}} X w = (Y^{\mathsf{T}} X)^T

        其中 Y^{\mathsf{T}} X 为 A,w 为 B

第三项 w^{\mathsf{T}} X^{\mathsf{T}} Y

        将 \frac{\partial A^TB}{\partial A} = B 代入得

        w^{\mathsf{T}} \cdot X^{\mathsf{T}} Y\Rightarrow B\Rightarrow X^{\mathsf{T}} Y

        w^{\mathsf{T}} X^{\mathsf{T}} Y = X^{\mathsf{T}} Y

        其中 w^T 为 A^T,X^{\mathsf{T}} Y 为 B

第四项 没有 w 看作常数项 常数项的导数为0
合并项得

        f(x) =w^{\mathsf{T}} X^{\mathsf{T}} X w-Y^{\mathsf{T}} X w-w^{\mathsf{T}} X^{\mathsf{T}} Y+Y^{\mathsf{T}} Y

     = 2X^TXw-(Y^{\mathsf{T}} X)^T-X^{\mathsf{T}} Y+0

=2X^TXw-X^{\mathsf{T}} Y-X^{\mathsf{T}} Y         

=2X^TXw-2X^{\mathsf{T}} Y                      

=2(X^TXw-X^{\mathsf{T}} Y)                     

 令 \frac{\partial f(w)}{\partial w} = 0,得

 2(X^TXw-X^{\mathsf{T}} Y) = 0

X^TXw=X^{\mathsf{T}} Y

(X^TX)^{-1}X^TXw=(X^TX)^{-1}X^{\mathsf{T}} Y (X^TX 可逆时)

w=(X^TX)^{-1}X^{\mathsf{T}} Y

(X^TX)(X^TX)^{-1}互为逆矩阵  (X^TX)(X^TX)^{-1} = 1

得出结果
   w=(X^TX)^{-1}X^{\mathsf{T}} Y

解释:

(X^TX)(X^TX)^{-1} = 1,(X^TX)(X^TX)^{-1}互逆

逆矩阵的定义

如果 B是 A的逆矩阵,则满足:

AB=BA=I(单位矩阵 类似于数值乘法中的 1)

 即无论 A左乘还是右乘 B,结果均为单位矩阵。

必要条件 

AB必须是方阵(行数=列数)

A必须可逆(即行列式 det(A) \neq 0

直观理解

 逆矩阵的作用类似于“倒数”。例如,数值中 2\times \frac{1}{2} = 1,类似地,矩阵中 A\times A^{-1} = I

单位矩阵 I在矩阵乘法中的作用类似于数值乘法中的 1。

示例验证

取矩阵 A=\begin{bmatrix} 1 & 2 \\ 3& 4 \end{bmatrix},其行列式det(A) = -2 \neq 0,故可逆。

计算逆矩阵:

A^{-1} = \frac{1}{det(A)}\begin{bmatrix} 4 &-2 \\ -3& 1 \end{bmatrix}= \frac{1}{-2}\begin{bmatrix} 4 &-2 \\ -3& 1 \end{bmatrix}= \begin{bmatrix} -2 &1 \\ \frac{3}{2}& -\frac{1}{2} \end{bmatrix}

(1) 第一行第一列的元素 (C_{11}​)

C_{11}=\frac{1}{-2}\times 4=-2

(2) 第一行第二列的元素 (C_{12}​)

C_{12}=\frac{1}{-2}\times -2 = 1

(3) 第一行第二列的元素 (C_{21}​)

C_{21}=\frac{1}{-2}\times -3 = \frac{3}{2}

(4) 第一行第二列的元素 (C_{22}​)

C_{22}=\frac{1}{-2}\times 1 =- \frac{1}{2}

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

气象可视化卫星云图的方式:方法与架构详解

气象卫星云图是气象预报和气候研究的重要数据来源。通过可视化技术,我们可以将卫星云图数据转化为直观的图像或动画,帮助用户更好地理解气象变化。本文将详细介绍卫星云图可视化的方法、架构和代码实现。 一、卫星云图可视化方法 1. 数据获取与预处理 卫星云图数据通常来源…

浏览器渲染原理与优化详解

一、浏览器渲染基础原理 浏览器渲染流程主要包括以下步骤(也称为"关键渲染路径"): 构建DOM树:将HTML解析为DOM(文档对象模型)树构建CSSOM树:将CSS解析为CSSOM(CSS对象模…

基于Spring Boot的成绩管理系统后台实现

下面是一个完整的成绩管理系统后台实现,使用Spring Boot框架,包含学生管理、课程管理和成绩管理功能。 1. 项目结构 src/main/java/com/example/grademanagement/ ├── config/ # 配置类 ├── controller/ # 控制器 ├── dto/ …

实现极限网关(INFINI Gateway)配置动态加载

还在停机更新 Gateway 配置,OUT 了。 今天和大家分享一个 Gateway 的功能:动态加载配置(也称热更新或热加载)。 这个功能可以在 Gateway 不停机的情况下更新配置并使之生效。 配置样例如下: path.data: data path.…

Mean Shift 图像分割与 Canny 边缘检测教程

1. Mean Shift 简介 Mean Shift 是一种聚类算法,通过寻找图像中颜色相似的区域来实现分割。它非常适合用于场景分割或物体检测等任务。本教程将它与 Canny 边缘检测结合,突出分割区域的边界。 2. 图像分割流程 我们将按照以下步骤完成图像分割和边缘检…

Day15 -实例 端口扫描工具 WAF识别工具的使用

一、端口扫描工具 1、zenmap 我这里user是汉字名,没有解析成功。等后续换一个英文账户试一试。 魔改kali的nmap nmap -p8000-9000 8.140.159.19 2、masscan cmd启动,拖入exe文件。然后先写ip,会报错给提示 寻路犬系统 我们去找一下他的…

如何解决高并发场景下的性能瓶颈?实践分享

解决高并发性能瓶颈的核心方法包括优化系统架构、合理使用缓存技术、数据库优化及扩展策略、负载均衡设计。 其中,优化系统架构是根本解决性能问题的关键所在。良好的系统架构能够有效支撑业务高效稳定运行,避免性能瓶颈带来的损失。企业可通过微服务架构…

自动驾驶背后的数学:ReLU,Sigmoid, Leaky ReLU, PReLU,Swish等激活函数解析

随着自动驾驶技术的飞速发展,深度学习在其中扮演着至关重要的角色。而激活函数作为神经网络中的关键组件,直接影响着模型的性能和效果。前面几篇博客 自动驾驶背后的数学:特征提取中的线性变换与非线性激活 , 「自动驾驶背后的数学&#xff1…

性能测试、负载测试、压力测试的全面解析

在软件测试领域,性能测试、负载测试和压力测试是评估系统稳定性和可靠性的关键手段。​它们各自关注不同的测试目标和应用场景,理解这些差异对于制定有效的测试策略至关重要。 本文对性能测试、负载测试和压力测试进行深入分析,探讨其定义、…

责任链模式-java

1、spring依赖注入模式 @Configuration public class ChainConfig {@Beanpublic ChainSpringFactory chainSpringFactory(List<IHandler<DemoOne,Boolean>> handlerList){return new ChainSpringFactory(handlerList);}} public class DemoOne { }public abstract…

学习本地部署DeepSeek的过程(基于LM Studio)

除了使用Ollama部署DeepSeek&#xff0c;还可以使用LM Studio部署DeepSeek&#xff0c;后者是一款允许用户在本地计算机上运行大型语言模型&#xff08;LLMs&#xff09;的桌面应用程序&#xff0c;旨在简化本地模型的使用&#xff0c;无需云端连接或复杂配置即可体验 AI 功能。…

CSS 尺寸 (Dimension)

CSS 尺寸 (Dimension) 在网页设计中&#xff0c;CSS&#xff08;层叠样式表&#xff09;的尺寸属性是控制元素大小和位置的关键。本文将详细介绍CSS尺寸相关的概念、属性及其应用。 1. CSS 尺寸概述 CSS尺寸主要包括宽度和高度&#xff0c;这些属性可以应用于各种HTML元素&a…

【自学笔记】ELK基础知识点总览-持续更新

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 ELK基础知识点总览1. ELK简介2. Elasticsearch基础Elasticsearch配置示例&#xff08;elasticsearch.yml&#xff09; 3. Logstash基础Logstash配置示例&#xff08…

等差数列公式推导

前言&#xff1a; 通过实践而发现真理&#xff0c;又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识&#xff0c;又从理性认识而能动地指导革命实践&#xff0c;改造主观世界和客观世界。实践、认识、再实践、再认识&#xff0c;这种形式&#xff0c;循环往…

【MySQL】用户账户、角色、口令、PAM

目录 查看用户账户设置 连接 1.本地连接 2.远程连接 账户 角色 操作用户账户和角色 配置口令和账户有效期限 手工使口令过期 配置口令有效期限 PAM身份验证插件 客户端连接&#xff1a;使用 PAM 账户登录 在连接到MySQL服务器并执行查询时&#xff0c;会验证你的身…

5种生成模型(VAE、GAN、AR、Flow 和 Diffusion)的对比梳理 + 易懂讲解 + 代码实现

目录 1 变分自编码器&#xff08;VAE&#xff09;​ 1.1 概念 1.2 训练损失 1.3 VAE 的实现 2 生成对抗网络&#xff08;GAN&#xff09;​ 2.1 概念 2.2 训练损失 a. 判别器的损失函数 b. 生成器的损失函数 c. 对抗训练的动态过程 2.3 GAN 的实现 3 自回归模型&am…

印刷电路板 (PCB) 的影响何时重要?在模拟环境中导航

我和我的同事们经常被问到关于 PCB 效应的相同问题&#xff0c;例如&#xff1a; 仿真何时需要 PCB 效果&#xff1f; 为什么时域仿真需要 PCB 效应&#xff1f; 当 PCB 效应必须包含在仿真中时&#xff0c;频率是否重要&#xff1f; 设计人员应该在多大程度上关注 VRM 模型中包…

2024跨境电商挑战:AI反检测技术在避免封号中的作用

2024跨境电商挑战&#xff1a;AI反检测技术在避免封号中的作用 跨境电商的浪潮席卷全球&#xff0c;为商家打开了通往世界各地的大门。然而&#xff0c;随着平台监管的加强&#xff0c;合规性问题成为商家不得不面对的挑战。在电商平台的严格监控下&#xff0c;任何违规行为都…

QML控件 - Text

在 QML 中&#xff0c;Text 组件是用于显示文本的核心元素&#xff0c;支持丰富的文本样式、布局和交互功能。以下是 完整指南 和常见用法示例&#xff1a; 1. 基础用法 import QtQuick 2.15Text {text: "Hello, QML!" // 显示文本内容font.pixelSize: 20 // 字体…

网络运维学习笔记(DeepSeek优化版) 024 HCIP-Datacom OSPF域内路由计算

文章目录 OSPF域内路由计算&#xff1a;单区域的路由计算一、OSPF单区域路由计算原理二、1类LSA详解2.1 1类LSA的作用与结构2.2 1类LSA的四种链路类型 三、OSPF路由表生成验证3.1 查看LSDB3.2 查看OSPF路由表3.3 查看全局路由表 四、2类LSA详解4.1 2类LSA的作用与生成条件4.2 2…