Hands on Deep Learning Chapter 3 线性神经网络

news/2025/10/20 20:58:37/文章来源:https://www.cnblogs.com/milesssma/p/19146502

3 线性神经网络

3.1 线性回归

回归（regression）、预测（prediction）、分类（classification）

3.1.1 线性回归的基本元素

线性模型：对输入特征进行一个仿射变换（affine transformation，加权和对特征进行线性变换，偏置项进行平移）
单个数据样本：\(\hat{y}=\mathbf{w^T x}+b\)，w：d×1，x：d×1，d个特征。
整个数据集，每一行是一个样本：\(\mathbf{\hat{y}}=\mathbf{Xw}+b\)，y：n×1，X：n×d，w：d×1，b是标量，使用了广播机制。
找到一组参数（w，b），使得误差小，在获得最优的w、b之前，还需要考虑：

如何衡量误差
如何更新w、b

损失函数
单样本平方误差损失函数 \(l^{(i)}(\mathbf{w},b)=\frac{1}{2}(\hat{y}^{(i)}-y^{(i)})^2\)
经验误差是关于模型参数的函数（即损失函数是关于参数的，训练集固定）
\(L(\mathbf{w},b)=\frac{1}{n}\sum^{n}_{i=1}l^{(i)}(\mathbf{w},b)=\frac{1}{n}\sum^{n}_{i=1}\frac{1}{2}(\mathbf{ w^T x^{(i)}}+b-y^{(i)})^2\)
找一组w、b令上市最小化

解析解：\(\mathbf{w^*=（X^T X)^{-1}X^T y}\)，Aw对w求导为A的转置，w^T A对w求导是A，w^T Aw对w求导是2A

随机梯度下降
梯度下降：gradient descent，沿着梯度相反的方向去更新参数，从而使得损失函数减小。通常每次随机抽取一小批样本，called 小批量随机梯度下降（minibatch stochastic gradient descent）
1）初始化模型的值；
2）抽取小批量样本且在负梯度方向上更新参数。
超参数：batch size：批量大小、learning rate：学习率，不在训练过程中更新，根据训练迭代成果来调整，训练迭代的结果通过验证集（validation set）评估得到。
线性回归在一整个域中只有1个最小值，更难的是泛化（generalization），找到一组参数在没见过的数据集上表现良好。

3.1.3 正态分布与平方损失

均方损失误差可以用于线性回归的一个原因：假设观测中包含噪声，且服从正态分布（均值为0，方差恒定）。
给定x观测到特定y的似然是通过噪声的分布来建模的，噪声取到某个值的概率密度，直接导致观测到y的概率密度：
\(P(y|\mathbf{x})=\frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(y-\mathbf{w^T x}-b)^2)\)
极大似然估计，选择w、b令取到这种特定数据集的概率最大。
\(P(\mathbf{y|X})=\prod^n_{i=1}p(y^{(i)}|x^{(i)})\)，对数化
\(-logP(\mathbf{y|X})=\sum^{n}_{i=1}\frac{1}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y^{(i)}-\mathbf{w^T x^{(i)}}-b)^2\)
与均方损失误差的优化是一样的（前面常数不考虑），只需要假设方差是常数即可。
高斯假设下：最小化均方误差=对线性模型的极大化似然估计

3.2 线性回归的从零开始实现

1）数据集的生成与读取：每次读取一个小批量，input：batch_size, X, y，生成数据迭代器，每次返回batch size大小的一组特征和标签。
2）初始化模型参数：w用均值0，标准差0.01的正态，b为0；
3）定义模型：torch.maxmul(X, w)+b；
4）定义损失函数；
5）定义优化算法：用批量大小除以损失值，避免因为batch_size的选择导致损失过大or过小，导致计算出的梯度大小影响更新步长；
6）训练：执行循环：初始化参数、计算梯度、更新参数，可以迭代多个周期（epoch）。

3.3 线性回归的简洁实现

1）生成数据集、读取数据集: data.TensorDataset(features, labels), data.DataLoader(dataset, batch_size, shuffle=True)，生成一个数据迭代器，可以用for循环遍历，并且执行sgd；
2）定义模型: net=nn.Sequential(nn.Linear(2, 1)), 第一个2指的是输入特征形状，第二个1是输出特征形状;
3）初始化模型参数: net[0].weight/bias.data.normal(0, 0.01)/fill_(0);
4）定义损失函数: nn.MSELoss();
5）定义优化算法: torch.optim.SGD(net.parameters(), lr=0.03);
6）训练：遍历数据迭代器，前向传播计算net(X)生成预测，计算损失，反向传播计算梯度，调用优化器来更新模型参数，注意每次迭代要梯度清0。

3.4 softmax回归

硬类别：是什么，软类别：每类的概率
独特编码（one-hot encoding），（1，0，0）、（0，1，0）、（0，0，1）

3.4.2 网络架构

多个输入，每个类别对应一个输出，对一个样本就要做多输出了，每一个输出对应着一个仿射函数，比如4个特征、3个类别，需要12个权重+3个偏置。
o1=x1w11+x2w12+x3w13+x4w14+b1
o2=x1w21+x2w22+x3w23+x4w24+b2
o3=x1w31+x2w32+x3w33+x4w34+b3
\(\mathbf{o=Wx+b}\), softmax也是单层、全连接层。

3.4.3 参数开销

d个input转换为q个output成本O(dq)，but可以减少到O(dq/n)

3.4.4 softmax运算

分类问题要求得到预测结果，可以选择最大概率的标签，不过我们有时也需要软标签，也就是具体每个类别的概率，我们需要这些数相加=1，大于等于0。
softmax函数：将未规范化的预测变换为非负数且总和为1：
\(\mathbf{\hat{y}}=softmax(\mathbf{o})\)
\(\hat{y_j}=\frac{exp(o_j)}{\sum_k exp(o_k)}\)
softmax不会更改大小次序，虽然是非线性函数，但是是线性模型，可以直接通过oj的值选择分类

3.4.7 信息论基础

information theory: 涉及编码、解码、发送以及尽可能简洁地处理信息or数据。
熵
量化数据中的信息内容，该数值被成为分布P的熵（entropy）。
\(H[P]=\sum_{j}-P(j)logP(j)\)
信息论基本定理之一：为了对分布p中随机抽取的数据进行编码，我们至少需要H[P]“纳特nat”对其进行编码，“纳特”相当于以对数e为底rather than 2的比特。
\(H_{nat}=-\sum P_i log_e P_i = \frac{H_{bit}}{log_2 e}\)
对于2进制，信息为：-ln1/2 nats = -log_2 1/2 bit, 即：ln2nats=1bits，hence 1nats=1/ln2bits=1.44bits
信息流
如果很容易预测下一个数据，则可以把数据压缩过大，不用传递那么多信息，可以丢一些。
如果是常数数据流，我们不用传递任何信息，“下一个数据是xx”这个事件毫无信息量。
如果不能完全预测每一个事件，有时候会感到“诧异”，香农使用\(log\frac{1}{P(j)}=-logP(j)\)来量化这种惊异程度，P(j)是主观概率，如果概率较低，则出现时惊异程度会更大，该事件的信息量也更大。
熵的定义是分配的概率真正匹配数据生成过程时的信息量的期望，出现的概率是P(j)，信息量是-logP(j)。
交叉熵，从P到Q记为\(H(P,Q)\)，主观概率为Q的观察者看到根据概率P生成的数据时的预期惊异，当P=Q时，交叉熵最低。
主观概率Q，可以理解为我们模型训练出来的，客观概率P是数据集的分类，\(H(P,Q)=E_{x ~ p}(-log(Q(x))\)。
两个角度理解交叉熵分类目标：
1）最大化观测数据的似然；
2）最小化传达标签所需要的惊异。

3.6 softmax的从零开始实现

1）制作数据迭代器；
2）模型参数初始化（W，b）；
3）定义softmax操作；
4）定义模型；
5）定义损失函数；
6）分类精度；
7）训练；
8）预测；
一些问题：exp当input比较大时，可能导致python数据结构的溢出、且交叉熵损失要求input>0。

3.7 softmax的简洁实现

1）初始化模型参数；
2）重新审视softmax实现：
exp(o_k)可能上溢，let分子or分母无穷大，最后得到0、inf、nan，然后损失函数也算不出来。
可以把o_j换成o_j-max(o_k)。
如果o_j-max比较小，可能接近0发生下溢，结果为0，损失函数算不出来，为inf，反向传播一堆nan。
可以把softmax函数带入损失函数后，直接把o_j带入进去，最后结果是\(log(\hat{y_i})=o_j-max(o_k)-log(\sum_k exp(o_k-max(o_k)))\)。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/941594.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！