模式识别与机器学习课程笔记（3）：统计决策中的经典学习手段

news/2025/11/13 13:49:25/文章来源:https://www.cnblogs.com/gccbuaa/p/19217846

模式识别与机器学习课程笔记（3）：统计决策中的经典学习途径

- 1 统计推断概述
- - 1.1 基本概念
  - 1.2 估计的途径
  - 1.3 估计量的性质
- 2 参数估计
- - 2.1 参数的辨识性
  - 2.2 矩法估计
  - - 核心步骤
    - 示例：正态分布的矩法估计
  - 2.3 最大似然估计（ML估计）
  - - 核心公式与步骤
    - 示例：正态分布的ML估计
  - 2.4 贝叶斯估计
  - - 核心公式与步骤
    - 示例：正态分布均值的贝叶斯估计
- 3 贝叶斯学习
- - 3.1 根本思想
  - 3.2 主干公式
  - 3.3 基本步骤
  - 3.4 递推贝叶斯参数学习
- 4 概率的窗函数估计法
- - 4.1 引言：参数估计与非参数估计的对比
  - 4.2 概率密度的基本估计式
  - 4.3 提高概率密度估计精度的要求
  - 4.4 两种经典非参数估计方法
  - - 4.4.1 Parzen窗法
    - 4.4.2 $k_N$ 近邻法
- 5 错误率估计
- - 5.1 分类器错误率的实验估算基本原理
  - 5.2 样本抽取方式对误判概率估计的影响
  - 5.3 训练与测试样本集的大小对错误率的影响
  - 5.4 训练样本使用技术及错误率的测试
  - 5.5 从学习曲线估计错误率
- 小结

1 统计推断概述

统计推断是模式识别中“从素材到模型”的核心环节，核心目标是通过有限的样本材料，推断总体数据的分布规律或关键参数，为后续决策（如分类、回归）提供依据。

1.1 基本概念

训练与学习：通过“输入样本+标签（或无标签）”调整模型参数的过程。本质是让模型从数据中捕捉总体的统计规律，最终实现对未知样本的预测。
总体：所有待研究对象的集合（如所有手写数字“0”的图像），其统计特性由固定的分布（如概率密度函数 $f (x)$ ）描述。
子样（样本）：从总体中随机抽取的有限个个体（如1000张手写“0”的图像），需满足独立同分布（i.i.d.）假设，以保证样本能反映总体特性。
估计：从子样数据出发，计算一个“近似值”来替代总体的未知参数（如用样本均值估计总体均值）或未知分布（如用Parzen窗估计总体概率密度）的过程。

1.2 估计的方法

根据是否假设总体分布的“概型”（即分布形式，如正态分布、泊松分布），估计方法分为两类：

参数估计方法：假设总体分布概型已知（如已知总体服从正态分布 $N(\mu,\sigma^2)$ ），仅需估计分布中的未知参数（如 $\mu$ 和 $\sigma^2$ ）。常见方法包括矩法、最大似然估计、贝叶斯估计。
非参数估计方式：不假设总体分布概型，直接通过样本数据“拟合”总体的概率密度或分布函数。适用于总体分布未知或分布形式复杂的场景，常见方法包括Parzen窗法、 $k_N$ 近邻法。

1.3 估计量的性质

评价一个“估计结果”是否可靠，需通过估计量的统计性质衡量，核心性质包括：

估计的无偏性：估计量的期望等于总体真实参数。若 $\hat{\theta}$ 是参数 $\theta$ 的估计量，则无偏性要求 $E[\hat{\theta}] = \theta$ 。例如，样本均值 $\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$ 是总体均值 $\mu$ 的无偏估计。
估计的相合性（一致性）：当样本量 $N$ 趋近于无穷大时，估计量 $\hat{\theta}$ 以概率1收敛到真实参数 $\theta$ ，即 $\hat{\theta} \xrightarrow{P} \theta$ （依概率收敛）。相合性保证了“材料越多，估计越准”。
估计的充分性：估计量 $\hat{\theta}$ 包含了样本中关于参数 $\theta$ 的“所有信息”，即没有任何其他估计量能从样本中提取更多关于 $\theta$ 的信息。例如，样本均值和样本方差共同构成了正态分布参数 $(\mu,\sigma^2)$ 的充分统计量。

2 参数估计

参数估计是“已知分布概型，求未知参数”的过程，核心是通过合理的准则从样本中提取参数信息。

2.1 参数的辨识性

若总体分布 $p(x|\theta)$ 满足：“当 $\theta_1 \neq \theta_2$ 时，必有 $p(x|\theta_1) \neq p(x|\theta_2)$ （即两个分布在几乎所有 $x$ 处的概率密度不同）”，则称参数 $\theta$ 是可辨识的。

辨识性是参数估计的前提：若参数不可辨识，即使拥有无穷多样本，也无法唯一确定真实参数。
示例：混合高斯分布 $p(x|\theta) = \alpha N(x|\mu_1,\sigma^2) + (1-\alpha) N(x|\mu_2,\sigma^2)$ 中，若交换 $(\mu_1,\alpha)$ 和 $(\mu_2,1-\alpha)$ ，分布不变，因此 $(\alpha,\mu_1,\mu_2)$ 不可辨识。

2.2 矩法估计

矩法估计的核心思想是“用样本矩匹配总体矩”——总体矩由参数决定，通过样本矩的表达式反解出参数估计值。

核心步骤

计算总体的 $k$ 阶原点矩 $m_k = E[X^k]$ （由未知参数 $\theta$ 表示）；
计算样本的 $k$ 阶原点矩 $\hat{m}_k = \frac{1}{N}\sum_{i=1}^N x_i^k$ （由样本数据计算）；
令 $m_k = \hat{m}_k$ ，建立方程并解出 $\theta$ 的估计量 $\hat{\theta}$ 。

示例：正态分布的矩法估计

设总体 $\sim N(\mu,\sigma^2)$ ，未知参数为 $\theta = (\mu,\sigma^2)$ ：

总体1阶矩： $m_1 = E[X] = \mu$ ；
总体2阶矩： $m_2 = E[X^2] = \mu^2 + \sigma^2$ ；
样本1阶矩： $\hat{m}_1 = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$ ；
样本2阶矩： $\hat{m}_2 = \frac{1}{N}\sum_{i=1}^N x_i^2$ ；
联立解得： $\hat{\mu} = \bar{x}$ ， $\hat{\sigma}^2 = \hat{m}_2 - \hat{m}_1^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2$ （注：此方差估计是有偏的，修正后为 $\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2$ ）。

2.3 最大似然估计（ML估计）

最大似然估计的核心思想是“让观测到的样本数据出现概率最大”——对于给定样本，选择使“样本似然函数”最大的参数作为估计值。

核心公式与步骤

似然函数：设样本 $x_1,x_2,...,x_N$ 独立同分布，总体概率密度为 $p(x|\theta)$ ，则似然函数为样本联合概率密度：
$L(\theta|x_1,...,x_N) = \prod_{i=1}^N p(x_i|\theta)$
对数似然函数：为简化乘积运算，取对数（对数是单调递增函数，不改变极值位置）：
$l(\theta|x_1,...,x_N) = \sum_{i=1}^N \ln p(x_i|\theta)$
求极值：对 $l(\theta)$ 关于 $\theta$ 求导，令导数为0，解出 $\theta$ 的估计量 $\hat{\theta}_{ML}$ 。

示例：正态分布的ML估计

设 $\sim N(\mu,\sigma^2)$ ，对数似然函数为：
$l(\mu,\sigma^2) = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2$
分别对 $\mu$ 和 $\sigma^2$ 求导并令导数为0，解得：
$\hat{\mu}_{ML} = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$
$\hat{\sigma}^2_{ML} = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2$
（注： $\hat{\sigma}^2_{ML}$ 是有偏估计，需修正为 $\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2$ ）。

2.4 贝叶斯估计

贝叶斯估计与频率派（如ML估计）的核心区别是：将未知参数 $\theta$ 视为随机变量，而非固定常数。估计过程需结合“先验信息”和“样本信息”，最终得到参数的后验分布。

核心公式与步骤

贝叶斯公式：后验概率密度 $p(\theta|x)$ 由先验概率密度 $p(\theta)$ 和似然函数 $p(x|\theta)$ 计算：
$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$
其中 $\int p(x|\theta)p(\theta)d\theta$ 是边缘似然（证据因子），仅与样本有关，与 $\theta$ 无关。
损失函数与估计量：贝叶斯估计需定义“损失函数”衡量估计误差，选择使“期望损失最小”的 $\hat{\theta}$ 作为估计量：
- 若用平方损失函数 $L(\theta,\hat{\theta}) = (\theta - \hat{\theta})^2$ ，则最优估计量为后验均值： $\hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x)d\theta$ ；
- 若用绝对值损失函数 $L(\theta,\hat{\theta}) = |\theta - \hat{\theta}|$ ，则最优估计量为后验中位数。

示例：正态分布均值的贝叶斯估计

设 $\sim N(\mu,\sigma^2)$ （ $\sigma^2$ 已知），先验 $\mu \sim N(\mu_0,\sigma_0^2)$ ，则后验 $p(\mu|x) \sim N(\mu_n,\sigma_n^2)$ ，其中：
$\mu_n = \frac{\sigma^2}{\sigma^2 + N\sigma_0^2}\mu_0 + \frac{N\sigma_0^2}{\sigma^2 + N\sigma_0^2}\bar{x}$
$\sigma_n^2 = \frac{\sigma^2 \sigma_0^2}{\sigma^2 + N\sigma_0^2}$
可见，贝叶斯估计是“先验均值 $\mu_0$ ”和“样本均值 $\bar{x}$ ”的加权平均，样本量 $N$ 越大，样本信息权重越高。

3 贝叶斯学习

贝叶斯学习是贝叶斯估计的延伸，核心思想是：不直接估计参数 $\theta$ ，而是经过参数的后验分布直接估计总体的概率密度 $p (x)$ ，从而跳过“参数估计”步骤，直接为决策提供分布依据。

3.1 基本思想

频率派和贝叶斯学习的路径对比：

频率派（如ML估计）：样本→估计参数 $\hat{\theta}$ →用 $p(x|\hat{\theta})$ 近似总体 $p (x)$ ；
贝叶斯学习：样本→计算参数后验 $p(\theta|x)$ →用 $\int p(x|\theta)p(\theta|x)d\theta$ 直接估计总体 $p (x)$ 。

贝叶斯学习更贴合“不确定性建模”，尤其适用于小样本场景（先验信息可弥补样本不足）。

3.2 主干公式

贝叶斯学习的核心是“边际化参数”以得到总体概率密度，关键公式包括：

参数后验分布（同贝叶斯估计）：
$p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}$
其中 $D = \{x_1,...,x_N\}$ 为样本集。
总体概率密度估计（边际化参数 $\theta$ ）：
$\int p(x|\theta)p(\theta|D)d\theta$
“参数条件下的密度就是该式表示：总体密度 $p(x|\theta)$ ”在“参数后验分布 $p(\theta|D)$ ”上的加权平均。

3.3 基本步骤

确定先验分布 $p(\theta)$ ：根据领域知识或无信息先验（如均匀分布）设定参数的初始分布；
计算似然函数 $p(D|\theta)$ ：由样本的独立同分布性， $p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)$ ；
求参数后验分布 $p(\theta|D)$ ：利用贝叶斯公式计算，若先验与似然共轭（如正态-正态、Beta-二项），后验与先验同分布，计算更简便；
估计总体密度 $p (x ∣ D)$ ：依据边际化参数得到 $p (x ∣ D)$ ，用于后续分类（如贝叶斯分类器）或预测。

3.4 递推贝叶斯参数学习

当样本逐次到来（在线学习场景）时，无需重新计算所有样本的似然，可依据“递推”更新后验分布：

初始状态：给定初始先验 $p(\theta|D_0) = p(\theta)$ （ $D_0$ 为空样本集）；
递推更新：若新增样本 $x_{N+1}$ ，则新后验 $p(\theta|D_{N+1})$ 可由旧后验 $p(\theta|D_N)$ 更新：
$p(\theta|D_{N+1}) = \frac{p(x_{N+1}|\theta)p(\theta|D_N)}{p(x_{N+1}|D_N)}$
其中 $p(x_{N+1}|D_N) = \int p(x_{N+1}|\theta)p(\theta|D_N)d\theta$ 为边际似然。
优势：避免存储所有历史样本，仅需保存当前后验分布，适合实时数据处理。

4 概率的窗函数估计法

窗函数估计法是典型的非参数密度估计方法，核心思想是“用样本在局部区域的‘密度’近似总体在该点的密度”，无需假设总体分布概型。

4.1 引言：参数估计与非参数估计的对比

估计类型	核心假设	优势	劣势	适用场景
参数估计	总体分布概型已知	计算简单、样本效率高	假设不成立时误差大	分布已知（如正态、泊松）
非参数估计	无分布假设	适应性强、鲁棒性高	计算困难、需大量样本	分布未知或复杂

4.2 概率密度的基本估计式

从概率密度的定义出发推导非参数估计的核心公式：

概率密度定义： $\lim_{V \to 0} \frac{P(x \in V)}{V}$ ，其中 $V$ 是包含 $x$ 的小邻域体积， $\in V)$ 是样本落在 $V$ 中的概率。
样本近似：用样本频率替代概率，即 $\in V) \approx \frac{k}{N}$ （ $k$ 是落在 $V$ 中的样本数， $N$ 是总样本数）。
主要估计式：当 $V$ 足够小时，
$\approx \hat{f}_N(x) = \frac{k}{N V}$
该式是所有窗函数估计法的基础，关键在于如何选择 $V$ （或 $k$ ）以平衡估计的偏差和方差。

4.3 提高概率密度估计精度的要求

为使 $\hat{f}_N(x)$ 收敛到真实密度 $f (x)$ ，需满足以下渐近条件（当 $\to \infty$ 时）：

邻域体积 $\to 0$ ：保证邻域足够小，近似“局部密度”；
邻域内样本数 $\to \infty$ ：保证频率 $\frac{k}{N}$ 能稳定近似概率 $\in V)$ ；
$\frac{k}{N} \to 0$ ：避免 $k$ 增长过快导致 $V$ 无法趋近于0。

4.4 两种经典非参数估计方式

4.4.1 Parzen窗法

Parzen窗法通过“窗函数（核函数）”对邻域内的样本进行加权，解决“固定 $V$ 时样本离散分布”的问题。

核心公式：选择窗函数 $\phi(u)$ （满足 $\int \phi(u)du = 1$ ，如高斯窗、矩形窗），令 $V = h_N^d$ （ $d$ 为样本维度， $h_N$ 为窗宽，随 $N$ 减小），则：
$\hat{f}_N(x) = \frac{1}{N h_N^d} \sum_{i=1}^N \phi\left( \frac{x - x_i}{h_N} \right)$
窗函数的条件：
1. 非负性： $\phi(u) \geq 0$ ；
2. 归一性： $\int_{-\infty}^{\infty} \phi(u)du = 1$ ；
3. 对称性： $\phi(u) = \phi(-u)$ （保证估计无偏）。
示例：高斯窗函数 $\phi(u) = \frac{1}{(2\pi)^{d/2}} \exp\left( -\frac{1}{2} \|u\|^2 \right)$ ，此时Parzen窗估计为样本的“加权高斯核叠加”。

4.4.2 $k_N$ 近邻法

$k_N$ ：就是近邻法与Parzen窗法的核心区别固定邻域内的样本数 $k_N$ ，调整邻域体积 $V_N(x)$ （ $V_N(x)$ 是包含 $x$ 和 $k_N$ 个样本的最小邻域体积）。

核心公式：令 $k_N$ 满足 $k_N \to \infty$ 且 $\frac{k_N}{N} \to 0$ （ $\to \infty$ ），则：
$\hat{f}_N(x) = \frac{k_N}{N V_N(x)}$
优势：自适应调整邻域体积——在样本密集区域， $V_N(x)$ 小，估计精度高；在样本稀疏区域， $V_N(x)$ 大，避免估计值为0。
与Parzen窗法的对比：Parzen窗法是“固定 $V$ ，变 $k$ ”， $k_N$ 近邻法是“固定 $k$ ，变 $V$ ”。

5 错误率估计

评价分类器性能的核心指标，定义为“分类器对未知样本分类错误的概率”。由于真实错误率无法直接计算，需通过样本资料进行实验估算。就是错误率

5.1 分类器错误率的实验估算基本原理

真实错误率（贝叶斯错误率）： $P_e = E[I(y \neq \hat{y})]$ ，其中 $I(\cdot)$ 为指示函数（真为1，假为0）， $y$ 为真实标签， $\hat{y}$ 为分类器预测标签。
实验估算原理：用“独立于训练集的测试集”上的错误频率替代真实错误率，即：
$\hat{P}_e = \frac{1}{M} \sum_{i=1}^M I(y_i \neq \hat{y}_i)$
其中 $M$ 为测试集样本数， $y_i$ 和 $\hat{y}_i$ 分别为测试样本的真实标签和预测标签。

5.2 样本抽取方式对误判概率估计的影响

样本抽取的关键是“训练集与测试集独立”，否则会导致估计偏倚：

无偏抽取：训练集 $D_{tr}$ 和测试集 $D_{te}$ 从同一总体独立抽取，且 $D_{tr} \cap D_{te} = \emptyset$ ，此时 $\hat{P}_e$ 是 $P_e$ 的无偏估计。
有偏抽取：
1. 测试集包含训练集样本（过拟合测试）： $\hat{P}_e$ 远小于真实 $P_e$ ，高估分类器性能；
2. 训练集与测试集来自不同总体（如训练集是“白天图像”，测试集是“夜晚图像”）： $\hat{P}_e$ 远大于真实 $P_e$ ，低估分类器性能。

5.3 训练与测试样本集的大小对错误率的影响

训练集大小 $N$ 的影响：
- $N$ 较小时：分类器无法充分学习总体规律，过拟合风险高，测试错误率高；
- $N$ 增大时：分类器逐渐逼近总体规律，测试错误率下降并趋于稳定（收敛到贝叶斯错误率）。
测试集大小 $M$ 的影响：
- $M$ 较小时：错误频率的方差大， $\hat{P}_e$ 波动大（如 $M = 10$ 时，错误数差1个就导致 $\hat{P}_e$ 差10%）；
- $M$ 增大时：错误频率的方差减小， $\hat{P}_e$ 更接近真实 $P_e$ （依大数定律收敛）。

5.4 训练样本启用技术及错误率的测试

当样本总量有限时（如 $N + M$ 较小），需通过“重复利用样本”提高估计精度，常见方式包括：

留一法（Leave-One-Out, LOO）：
$k$ 折交叉验证（ $k$ -fold Cross Validation）：

5.5 从学习曲线估计错误率

学习曲线是“分类器错误率随训练样本量 $N$ 变化的曲线”，其核心作用是：

判断样本是否充足：若曲线趋于平缓，说明当前 $N$ 已足够，增加样本对错误率降低无明显帮助；
估计贝叶斯错误率：曲线平缓后的极限值可视为贝叶斯错误率的近似；
诊断过拟合/欠拟合：
- 欠拟合：训练错误率和测试错误率都高，且曲线未平缓，需增加 $N$ 或改进模型；
- 过拟合：训练错误率低，但测试错误率高，且两者差距大，需正则化或增加样本。