深度生成模型(二)——基本概念与数学建模

上一篇笔记中提到了端到端模型底层核心采用了深度生成模型,先简单梳理一下

生成式人工智能(Artificial Intelligence Generated Content,AIGC)经历了从早期基于概率模型和规则系统的方法到现代深度生成模型的跨越式发展

深度神经网络为 AIGC 带来了革命性的突破:

  1. 变分自编码器(Variational Autoencoder, VAE)等模型显著提升了生成模型的能力
  2. 生成对抗网络(Generative Adversarial Network, GAN)通过引入对抗训练机制,实现了更逼真生成样本的目标
  3. Transformer 模型的出现为序列数据的建模带来了新的思路,其核心是自注意力机制。该机制能够捕捉序列中任意两位置之间的依赖关系
  4. 在 Transformer 架构基础上,生成式预训练 Transformer(Generative Pre-trained Transformer, GPT)采用了预训练和微调的双阶段策略,极大提升了自然语言处理任务的效果。GPT 通过最大化语言模型的对数似然进行训练
  5. ChatGPT和稳定扩散(Stable Diffusion)等模型推动了AIGC进入一个全新阶段:ChatGPT 在 GPT 架构基础上,经过大量数据的预训练以及针对对话系统的微调,具备了高质量的交互生成能力,能够在对话中实现上下文理解和长文本生成;稳定扩散模型通过逆扩散过程将噪声逐步去除,实现高质量图像的生成。其生成过程可视为在一个马尔科夫链中从纯噪声逐步演化为清晰图像的逆过程

目录

1 基本概念

2 概率密度估计

2.1 基本概念

2.2 高维数据中的密度估计

2.3 含隐变量模型与 EM 算法

2.4 变分自编码器(VAE)思想

3 样本生成(采样)

4 生成模型在监督学习中的应用


1 基本概念

概率生成模型(Probabilistic Generative Model),简称生成模型,是概率统计和机器学习领域中一类用于随机生成可观测数据的重要模型

其基本思想是:在一个连续或离散的高维空间中,假设存在一个随机向量 X 服从一个未知的真实数据分布 pr​(x),生成模型通过学习一系列可观测样本 x^{(1)}, x^{(2)}, \dots, x^{(N)} 来构建一个参数化模型 p_{\theta}(x),使得生成的样本与真实样本尽可能相似

左图:真实分布 p_r(x) 以及从中采样的“真实”样本

右图:参数化分布 p_{\theta}(x) 以及从中采样的“生成”样本

生成模型通常包含两个基本功能:概率密度估计样本生成

1. 概率密度估计
给定一组样本数据,通过最大化似然函数来学习参数 θ,以便 p_{\theta}(x) 能够尽可能准确地近似 。常用的优化目标为最大化对数似然:

\theta^* = \arg\max_{\theta} \sum_{i=1}^{N} \log p_{\theta}(x^{(i)})

2. 样本生成(采样)
利用训练得到的模型 p_{\theta}(x) 生成新样本,使得生成样本的统计特性与真实数据相匹配。采样方法可能包括直接采样、马尔科夫链蒙特卡罗(MCMC)方法等。

对于图像、文本、声音等不同类型数据,生成模型均能发挥重要作用。然而,对于高维空间中的复杂分布,密度估计和生成样本通常面临两大挑战:

  • 高维建模难题:高维随机向量难以直接建模,通常需要借助条件独立性假设或降维方法来简化问题
  • 采样方法不足:即便建立了复杂的概率模型,从中高效采样也是一个非常难的问题,需要设计专门的采样算法或采用近似方法

为了解决上述问题,深度生成模型利用深度神经网络近似任意函数的能力,既可以直接建模复杂分布 p_r(x),也可以在隐空间中构造更容易采样的表示

概率密度估计

2.1 基本概念

概率密度估计(Density Estimation)是基于一些观测样本来估计一个随机变量的概率密度函数的方法。在机器学习中,这是一类典型的无监督学习问题。假设给定一组数据

\{x^{(1)}, x^{(2)}, \dots, x^{(N)}\}

这些数据都是从未知分布 p_r(x)  中独立采样得到的。密度估计的目标是根据这组样本,构建一个参数化模型 p_\theta(x) 来近似 p_r(x)

\theta^* = \arg\max_\theta \prod_{i=1}^{N} p_\theta(x^{(i)}) \quad     \Longleftrightarrow \quad \theta^* = \arg\max_\theta \sum_{i=1}^{N} \log p_\theta(x^{(i)})

密度估计方法主要分为两类:

  • 参数密度估计:假定数据分布属于某个已知的分布族,通过估计参数来确定分布,例如高斯分布的均值和协方差
  • 非参数密度估计:不做具体分布假设,直接利用数据自身来估计密度,例如核密度估计(Kernel Density Estimation, KDE)

2.2 高维数据中的密度估计

以手写体数字图像为例,每幅图像可以表示为一个随机向量 X,其中每一维代表一个像素值。我们假设所有手写体图像都服从一个未知的分布 p_r(x),并希望通过观测样本来估计该分布

然而,直接建模 p_r(x) 存在两大难题:

  1. 高维建模困难:图像中各像素间存在复杂依赖关系(例如相邻像素通常颜色相似),很难用简单的图模型来精确描述这种依赖关系
  2. 采样难度大:即使得到了复杂分布的近似模型,从中高效采样也往往不易实现

为了解决这两个问题,通常引入隐变量 z 来简化模型,将高维分布的建模任务分解为两个局部条件概率的估计问题:

  • 隐变量先验 p_\theta(z)
  • 条件分布 p_\theta(x \mid z)

一般我们会假设隐变量 z 的先验分布为标准高斯分布,即

p(z) = \mathcal{N}(z; 0, I)

其中各维度之间相互独立,因此先验分布中不含需要学习的参数。这样,密度估计的重点就转移为如何精确地估计条件分布 p_\theta(x \mid z)

2.3 含隐变量模型与 EM 算法

当需要建模含隐变量的联合分布 p_\theta(x, z) 时,由于隐变量 z 的不可观测性,我们通常使用 EM 算法(Expectation-Maximization Algorithm)来进行密度估计。EM 算法通过以下两个步骤交替进行迭代求解:

  1. E 步(Expectation Step):计算隐变量的后验分布 p(z \mid x; \theta) 或其近似

  2. M 步(Maximization Step):利用 E 步得到的后验分布,更新参数 θ,使得观测数据的对数似然最大化,即 \theta^* = \arg\max_\theta \sum_{i=1}^{N} \log p_\theta(x^{(i)})

在实际问题中,当条件分布 p_\theta(x \mid z) 与后验分布 p(z \mid x; \theta) 都较为复杂时,传统的 EM 算法难以直接求解。这时,可以利用神经网络来对这些分布进行建模,从而发展出基于变分推断的模型,即 变分自编码器(VAE)

2.4 变分自编码器(VAE)思想

变分自编码器的核心思想是利用神经网络对条件分布和后验分布进行近似建模。具体来说,VAE 包括两个模块:

  • 编码器 q_\phi(z \mid x):将观测数据 x 映射到隐变量 z 的分布
  • 解码器 p_\theta(x \mid z):根据隐变量 z 重构或生成数据 x

VAE 的目标是最大化变分下界(Evidence Lower Bound, ELBO),其目标函数为:

\mathcal{L}_{\text{VAE}} = \mathbb{E}_{q_\phi(z \mid x)}\left[\log p_\theta(x \mid z)\right] - \text{KL}\left(q_\phi(z \mid x) \parallel p(z)\right)

其中 \text{KL}(\cdot \parallel \cdot) 表示 Kullback-Leibler 散度,用以衡量编码器输出分布 q_\phi(z \mid x) 与先验分布 p(z) 之间的差异。最大化 ELBO 即相当于在保证模型重构能力的同时,使得隐变量的分布尽可能接近先验分布

样本生成(采样)

生成模型除了具备密度估计的功能外,还可以用于生成样本,即从一个给定的概率密度函数 p_\theta(x) 中生成服从该分布的新样本,这一过程也被称为采样。同时,生成模型在监督学习中也有广泛应用,通过对样本与标签联合分布 p(x, y) 的建模,可以间接求解条件概率分布 p(y|x)

在生成模型中,给定一个参数化的概率密度函数 p_\theta(x) 后,采样的目标是生成一组样本,使得这些样本服从 p_\theta(x)。如果已经得到了隐变量的局部条件概率 p_\theta(z) 以及条件概率 p_\theta(x|z),则生成数据 x 的过程可以分为两步进行:

  1. 隐变量采样:从隐变量的先验分布 p_\theta(z) 中采样,得到样本 z:z \sim p_\theta(z)

  2. 条件采样:根据采样得到的 z,从条件分布 p_\theta(x|z) 中采样,生成样本 x:x \sim p_\theta(x|z)

为了便于采样,通常要求 p_\theta(z) 不宜过于复杂。因此,另一种生成样本的思路是:从一个简单的分布(例如标准正态分布)中采样得到 z,然后利用一个深度神经网络 g(z)z 映射到数据空间,使得 g(z) 服从真实分布 p_r(x)

x = g(z), \quad z \sim \mathcal{N}(0, I)

这种方法能够避免直接对复杂高维分布 p_r(x) 进行密度估计,从而有效降低生成样本的难度。这正是生成对抗网络(GAN)的基本思想,即利用深度神经网络将简单分布映射为复杂数据分布的过程

4 生成模型在监督学习中的应用

除了用于生成样本之外,生成模型还可以应用于监督学习中。监督学习的目标是建模样本 x 与输出标签 y 之间的条件概率分布 p(y|x)。根据贝叶斯公式,

p(y|x) = \frac{p(x,y)}{p(x)}

可以将监督学习问题转换为对联合概率分布 p(x,y) 的密度估计问题

在这种框架下,生成模型不仅可以用于无监督数据的建模,还能用于构建带标签数据的生成模型。例如,在手写体数字图像的分类问题中,将图像表示为随机向量 X,标签 y 则表示对应的数字类别。生成模型通过对 p(x,y) 的建模,实现了对 p(y|x) 的间接推导。这种方法在某些情况下可以提高分类器的泛化能力

在监督学习中,比较典型的生成模型有:

  • 朴素贝叶斯分类器:假设各特征之间条件独立,直接基于 p(x,y) 进行建模
  • 隐马尔可夫模型(HMM):主要用于处理序列数据,通过建模隐状态与观测数据之间的关系来进行序列标注或分类

与生成模型对应的另一类监督学习方法是判别模型。判别模型直接对条件概率 p(y|x) 进行建模,而不需要构造完整的联合分布 p(x,y)。常见的判别模型包括 Logistic 回归、支持向量机(SVM)、神经网络等。需要注意的是,由生成模型可以推导出判别模型,但由判别模型却无法还原生成模型的信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70948.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle 查询表空间使用情况及收缩数据文件

本文介绍Oracle收缩数据文件的相关操作,运维工作中有时会需要通过收缩数据文件来释放磁盘空间。 数据文件初始化方式: 1.我们创建表空间一般有两种方式初始化其数据文件,即指定初始大小为32G(很大的值)或指定初始大小为…

3dtiles平移旋转工具制作

3dtiles平移旋转缩放原理及可视化工具实现 背景 平时工作中,通过cesium平台来搭建一个演示场景是很常见的事情。一般来说,演示场景不需要多完善的功能,但是需要一批三维模型搭建,如厂房、电力设备、园区等。在实际搭建过程中&…

Readability.js 与 Newspaper提取网页内容和元数据

在当今信息爆炸的时代,网页内容的提取和处理变得尤为重要。无论是从新闻网站、博客还是教程网站中提取内容,都需要一个高效、准确的工具来帮助我们去除无关信息,提取出有价值的正文内容。这不仅能够提高我们的工作效率,还能让我们…

Vue框架学习

一、Vue3 基础 创建vue3工程 安装Node.js在你所要存放目录位置 cmd 终端运行 npm create vuelatest输入工程名字需要ts JSX 选No 是否配置路由 NO(初步学习) 是否配置管理 No 是否配置测试 No Testing Solution NO 是否选择ESLint语法检查先不选 选NO…

部署若依微服务遇到的坑

一、用Windows部署nacos 1、启动失败,因为nacos默认开启为器群模式。单体需要加上图下代码 2、nacos配置内置MySQL时需要执行config文件夹下的SQL文件 3、springboot启动报错 java.nio.charset.MalformedInputException: Input length 1或Input length 2-CSDN博…

RabbitMQ系列(三)基本概念之Consumer

在 RabbitMQ 中,Consumer(消费者) 是负责从队列(Queue)中获取并处理消息的客户端角色,其核心机制与功能如下: 一、Consumer 的定义与核心作用 消息处理终端 Consumer 通过订阅或拉取队列中的消…

Trae根据原型设计稿生成微信小程序密码输入框的踩坑记录

一、需求描述 最近经常使用Trae生成一些小组件和功能代码(对Trae赶兴趣的可以看之前的文章《TraeAi上手体验》),刚好在用uniapp开发微信小程序时需要开发一个输入密码的弹框组件,于是想用Trae来实现。原型设计稿如下:…

SuperMap iClient3D for WebGL 影像数据可视范围控制

在共享同一影像底图的服务场景中,如何基于用户权限体系实现差异化的数据可视范围控制?SuperMap iClient3D for WebGL提供了自定义区域影像裁剪的方法。让我们一起看看吧! 一、数据制作 对于上述视频中的地图制作,此处不做讲述&am…

STM32中使用PWM对舵机控制

目录 1、硬件JIE 2、PWM口配置 3、角度转换 4、main函数中应用 5、工程下载连接 1、硬件介绍 单片机:STM32F1 舵机:MG995 2、PWM口配置 20毫秒的PWM脉冲占空比,对舵机控制效果较好 计算的公式: PSC、ARR值的选取&#xf…

5、使用 pgAdmin4 图形化创建和管理 PostgreSQL 数据库

通过上几篇文章我们讲解了如何安装 PostgreSQL 数据库软件和 pgAdmin4 图形化管理工具。 今天我们继续学习如何通过 pgAdmin4 管理工具图形化创建和管理 PostgreSQL 数据库。 一、PostgreSQL的基本工作方式 在学习如何使用PostgreSQL创建数据库之前,我们需要了解一…

Protobuf原理与序列化

本文目录 1. Protobuf介绍2. Protobuf的优势3. 编写Protobuf头部全局定义消息结构具体定义字段类型定义标签号Base128编码 4. TLVProtobuf的TLV编码如何通过Varint表示300? 5. 编译Protobuf6. 构造消息对象 前言:之前写项目的时候只是简单用了下Protobuf…

DeepSeek:面向效率与垂直领域的下一代大语言模型技术解析

本文将深入剖析DeepSeek模型的核心算法架构,揭示其在神经网络技术上的突破性创新,并与主流大模型进行全方位技术对比。文章涵盖模型设计理念、训练范式优化、应用场景差异等关键维度,为读者呈现大语言模型领域的最新发展图景。 一、DeepSeek…

数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用

数据安全_笔记系列09_人工智能(AI)与机器学习(ML)在数据安全中的深度应用 人工智能与机器学习技术通过自动化、智能化的数据分析,显著提升了数据分类、威胁检测的精度与效率,尤其在处理非结构化数据、复杂…

【Python 语法】Python 数据结构

线性结构(Linear Structures)1. 顺序存储列表(List)元组(Tuple)字符串(String) 2. 线性存储栈(Stack)队列(Queue)双端队列&#xff08…

docker本地镜像源搭建

最近Deepseek大火后,接到任务就是帮客户装Dify,每次都头大,因为docker源不能用,实在没办法,只好自己搭要给本地源。话不多说具体如下: 1、更改docker的配置文件,添加自己的私库地址&#xff0c…

Ae 效果详解:粒子运动场

Ae菜单:效果/模拟/粒子运动场 Simulation/Particle Playground 粒子运动场 Particle Playground效果可以用于创建和控制粒子系统,模拟各种自然现象,如烟雾、火焰、雨水或雪等。通过调整粒子的发射点、速度、方向和其他属性,可以精…

CSS 对齐:深入理解与技巧实践

CSS 对齐:深入理解与技巧实践 引言 在网页设计中,元素的对齐是至关重要的。一个页面中元素的对齐方式直接影响到页面的美观度和用户体验。CSS 提供了丰富的对齐属性,使得开发者可以轻松实现各种对齐效果。本文将深入探讨 CSS 对齐的原理、方法和技巧,帮助开发者更好地掌握…

汽车无钥匙进入一键启动操作正确步骤

汽车智能无钥匙进入和一键启动的技术在近年来比较成熟,不同车型的操作步骤可能略有不同,但基本的流程应该是通用的,不会因为时间变化而有大的改变。 移动管家汽车一键启动无钥匙进入系统通常是通过携带钥匙靠近车辆,然后触摸门把…

Android之APP更新(通过接口更新)

文章目录 前言一、效果图二、实现步骤1.AndroidManifest权限申请2.activity实现3.有版本更新弹框UpdateappUtilDialog4.下载弹框DownloadAppUtils5.弹框背景图 总结 前言 对于做Android的朋友来说,APP更新功能再常见不过了,因为平台更新审核时间较长&am…

AI触手可及 | 基于函数计算玩转AI大模型

AI触手可及 | 基于函数计算玩转AI大模型 基于函数计算部署AI大模型的优势方案架构图像生成 - Stable Diffusion WebUI部署操作 释放资源部署总结体验反馈 在生成式AI技术加速迭代的浪潮下,百亿级参数的行业大模型正推动产业智能化范式转移。面对数字化转型竞赛&…