模式识别与机器学习课程笔记(3):统计决策中的经典学习途径
- 1 统计推断概述
- 1.1 基本概念
- 1.2 估计的途径
- 1.3 估计量的性质
- 2 参数估计
- 2.1 参数的辨识性
- 2.2 矩法估计
- 核心步骤
- 示例:正态分布的矩法估计
- 2.3 最大似然估计(ML估计)
- 核心公式与步骤
- 示例:正态分布的ML估计
- 2.4 贝叶斯估计
- 核心公式与步骤
- 示例:正态分布均值的贝叶斯估计
- 3 贝叶斯学习
- 3.1 根本思想
- 3.2 主干公式
- 3.3 基本步骤
- 3.4 递推贝叶斯参数学习
- 4 概率的窗函数估计法
- 4.1 引言:参数估计与非参数估计的对比
- 4.2 概率密度的基本估计式
- 4.3 提高概率密度估计精度的要求
- 4.4 两种经典非参数估计方法
- 4.4.1 Parzen窗法
- 4.4.2 k N k_NkN近邻法
- 5 错误率估计
- 5.1 分类器错误率的实验估算基本原理
- 5.2 样本抽取方式对误判概率估计的影响
- 5.3 训练与测试样本集的大小对错误率的影响
- 5.4 训练样本使用技术及错误率的测试
- 5.5 从学习曲线估计错误率
- 小结
1 统计推断概述
统计推断是模式识别中“从素材到模型”的核心环节,核心目标是通过有限的样本材料,推断总体数据的分布规律或关键参数,为后续决策(如分类、回归)提供依据。
1.1 基本概念
- 训练与学习:通过“输入样本+标签(或无标签)”调整模型参数的过程。本质是让模型从数据中捕捉总体的统计规律,最终实现对未知样本的预测。
- 总体:所有待研究对象的集合(如所有手写数字“0”的图像),其统计特性由固定的分布(如概率密度函数f ( x ) f(x)f(x))描述。
- 子样(样本):从总体中随机抽取的有限个个体(如1000张手写“0”的图像),需满足独立同分布(i.i.d.)假设,以保证样本能反映总体特性。
- 估计:从子样数据出发,计算一个“近似值”来替代总体的未知参数(如用样本均值估计总体均值)或未知分布(如用Parzen窗估计总体概率密度)的过程。
1.2 估计的方法
根据是否假设总体分布的“概型”(即分布形式,如正态分布、泊松分布),估计方法分为两类:
- 参数估计方法:假设总体分布概型已知(如已知总体服从正态分布N ( μ , σ 2 ) N(\mu,\sigma^2)N(μ,σ2)),仅需估计分布中的未知参数(如μ \muμ和σ 2 \sigma^2σ2)。常见方法包括矩法、最大似然估计、贝叶斯估计。
- 非参数估计方式:不假设总体分布概型,直接通过样本数据“拟合”总体的概率密度或分布函数。适用于总体分布未知或分布形式复杂的场景,常见方法包括Parzen窗法、k N k_NkN近邻法。
1.3 估计量的性质
评价一个“估计结果”是否可靠,需通过估计量的统计性质衡量,核心性质包括:
- 估计的无偏性:估计量的期望等于总体真实参数。若θ ^ \hat{\theta}θ^是参数θ \thetaθ的估计量,则无偏性要求E [ θ ^ ] = θ E[\hat{\theta}] = \thetaE[θ^]=θ。例如,样本均值x ˉ = 1 N ∑ i = 1 N x i \bar{x} = \frac{1}{N}\sum_{i=1}^N x_ixˉ=N1∑i=1Nxi是总体均值μ \muμ的无偏估计。
- 估计的相合性(一致性):当样本量N NN趋近于无穷大时,估计量θ ^ \hat{\theta}θ^以概率1收敛到真实参数θ \thetaθ,即θ ^ → P θ \hat{\theta} \xrightarrow{P} \thetaθ^Pθ(依概率收敛)。相合性保证了“材料越多,估计越准”。
- 估计的充分性:估计量θ ^ \hat{\theta}θ^包含了样本中关于参数θ \thetaθ的“所有信息”,即没有任何其他估计量能从样本中提取更多关于θ \thetaθ的信息。例如,样本均值和样本方差共同构成了正态分布参数( μ , σ 2 ) (\mu,\sigma^2)(μ,σ2)的充分统计量。
2 参数估计
参数估计是“已知分布概型,求未知参数”的过程,核心是通过合理的准则从样本中提取参数信息。
2.1 参数的辨识性
若总体分布p ( x ∣ θ ) p(x|\theta)p(x∣θ)满足:“当θ 1 ≠ θ 2 \theta_1 \neq \theta_2θ1=θ2时,必有p ( x ∣ θ 1 ) ≠ p ( x ∣ θ 2 ) p(x|\theta_1) \neq p(x|\theta_2)p(x∣θ1)=p(x∣θ2)(即两个分布在几乎所有x xx处的概率密度不同)”,则称参数θ \thetaθ是可辨识的。
- 辨识性是参数估计的前提:若参数不可辨识,即使拥有无穷多样本,也无法唯一确定真实参数。
- 示例:混合高斯分布p ( x ∣ θ ) = α N ( x ∣ μ 1 , σ 2 ) + ( 1 − α ) N ( x ∣ μ 2 , σ 2 ) p(x|\theta) = \alpha N(x|\mu_1,\sigma^2) + (1-\alpha) N(x|\mu_2,\sigma^2)p(x∣θ)=αN(x∣μ1,σ2)+(1−α)N(x∣μ2,σ2)中,若交换( μ 1 , α ) (\mu_1,\alpha)(μ1,α)和( μ 2 , 1 − α ) (\mu_2,1-\alpha)(μ2,1−α),分布不变,因此( α , μ 1 , μ 2 ) (\alpha,\mu_1,\mu_2)(α,μ1,μ2)不可辨识。
2.2 矩法估计
矩法估计的核心思想是“用样本矩匹配总体矩”——总体矩由参数决定,通过样本矩的表达式反解出参数估计值。
核心步骤
- 计算总体的k kk阶原点矩m k = E [ X k ] m_k = E[X^k]mk=E[Xk](由未知参数θ \thetaθ表示);
- 计算样本的k kk阶原点矩m ^ k = 1 N ∑ i = 1 N x i k \hat{m}_k = \frac{1}{N}\sum_{i=1}^N x_i^km^k=N1∑i=1Nxik(由样本数据计算);
- 令m k = m ^ k m_k = \hat{m}_kmk=m^k,建立方程并解出θ \thetaθ的估计量θ ^ \hat{\theta}θ^。
示例:正态分布的矩法估计
设总体X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2)X∼N(μ,σ2),未知参数为θ = ( μ , σ 2 ) \theta = (\mu,\sigma^2)θ=(μ,σ2):
- 总体1阶矩:m 1 = E [ X ] = μ m_1 = E[X] = \mum1=E[X]=μ;
- 总体2阶矩:m 2 = E [ X 2 ] = μ 2 + σ 2 m_2 = E[X^2] = \mu^2 + \sigma^2m2=E[X2]=μ2+σ2;
- 样本1阶矩:m ^ 1 = x ˉ = 1 N ∑ i = 1 N x i \hat{m}_1 = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_im^1=xˉ=N1∑i=1Nxi;
- 样本2阶矩:m ^ 2 = 1 N ∑ i = 1 N x i 2 \hat{m}_2 = \frac{1}{N}\sum_{i=1}^N x_i^2m^2=N1∑i=1Nxi2;
- 联立解得:μ ^ = x ˉ \hat{\mu} = \bar{x}μ^=xˉ,σ ^ 2 = m ^ 2 − m ^ 1 2 = 1 N ∑ i = 1 N ( x i − x ˉ ) 2 \hat{\sigma}^2 = \hat{m}_2 - \hat{m}_1^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2σ^2=m^2−m^12=N1∑i=1N(xi−xˉ)2(注:此方差估计是有偏的,修正后为1 N − 1 ∑ i = 1 N ( x i − x ˉ ) 2 \frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N−11∑i=1N(xi−xˉ)2)。
2.3 最大似然估计(ML估计)
最大似然估计的核心思想是“让观测到的样本数据出现概率最大”——对于给定样本,选择使“样本似然函数”最大的参数作为估计值。
核心公式与步骤
- 似然函数:设样本x 1 , x 2 , . . . , x N x_1,x_2,...,x_Nx1,x2,...,xN独立同分布,总体概率密度为p ( x ∣ θ ) p(x|\theta)p(x∣θ),则似然函数为样本联合概率密度:
L ( θ ∣ x 1 , . . . , x N ) = ∏ i = 1 N p ( x i ∣ θ ) L(\theta|x_1,...,x_N) = \prod_{i=1}^N p(x_i|\theta)L(θ∣x1,...,xN)=i=1∏Np(xi∣θ) - 对数似然函数:为简化乘积运算,取对数(对数是单调递增函数,不改变极值位置):
l ( θ ∣ x 1 , . . . , x N ) = ∑ i = 1 N ln p ( x i ∣ θ ) l(\theta|x_1,...,x_N) = \sum_{i=1}^N \ln p(x_i|\theta)l(θ∣x1,...,xN)=i=1∑Nlnp(xi∣θ) - 求极值:对l ( θ ) l(\theta)l(θ)关于θ \thetaθ求导,令导数为0,解出θ \thetaθ的估计量θ ^ M L \hat{\theta}_{ML}θ^ML。
示例:正态分布的ML估计
设X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2)X∼N(μ,σ2),对数似然函数为:
l ( μ , σ 2 ) = − N 2 ln ( 2 π ) − N 2 ln ( σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 l(\mu,\sigma^2) = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2l(μ,σ2)=−2Nln(2π)−2Nln(σ2)−2σ21i=1∑N(xi−μ)2
分别对μ \muμ和σ 2 \sigma^2σ2求导并令导数为0,解得:
μ ^ M L = x ˉ = 1 N ∑ i = 1 N x i \hat{\mu}_{ML} = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_iμ^ML=xˉ=N1i=1∑Nxi
σ ^ M L 2 = 1 N ∑ i = 1 N ( x i − x ˉ ) 2 \hat{\sigma}^2_{ML} = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2σ^ML2=N1i=1∑N(xi−xˉ)2
(注:σ ^ M L 2 \hat{\sigma}^2_{ML}σ^ML2是有偏估计,需修正为1 N − 1 ∑ i = 1 N ( x i − x ˉ ) 2 \frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N−11∑i=1N(xi−xˉ)2)。
2.4 贝叶斯估计
贝叶斯估计与频率派(如ML估计)的核心区别是:将未知参数θ \thetaθ视为随机变量,而非固定常数。估计过程需结合“先验信息”和“样本信息”,最终得到参数的后验分布。
核心公式与步骤
- 贝叶斯公式:后验概率密度p ( θ ∣ x ) p(\theta|x)p(θ∣x)由先验概率密度p ( θ ) p(\theta)p(θ)和似然函数p ( x ∣ θ ) p(x|\theta)p(x∣θ)计算:
p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) p ( x ) p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}p(θ∣x)=p(x)p(x∣θ)p(θ)
其中p ( x ) = ∫ p ( x ∣ θ ) p ( θ ) d θ p(x) = \int p(x|\theta)p(\theta)d\thetap(x)=∫p(x∣θ)p(θ)dθ是边缘似然(证据因子),仅与样本有关,与θ \thetaθ无关。 - 损失函数与估计量:贝叶斯估计需定义“损失函数”衡量估计误差,选择使“期望损失最小”的θ ^ \hat{\theta}θ^作为估计量:
- 若用平方损失函数L ( θ , θ ^ ) = ( θ − θ ^ ) 2 L(\theta,\hat{\theta}) = (\theta - \hat{\theta})^2L(θ,θ^)=(θ−θ^)2,则最优估计量为后验均值:θ ^ B a y e s = E [ θ ∣ x ] = ∫ θ p ( θ ∣ x ) d θ \hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x)d\thetaθ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ;
- 若用绝对值损失函数L ( θ , θ ^ ) = ∣ θ − θ ^ ∣ L(\theta,\hat{\theta}) = |\theta - \hat{\theta}|L(θ,θ^)=∣θ−θ^∣,则最优估计量为后验中位数。
示例:正态分布均值的贝叶斯估计
设X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2)X∼N(μ,σ2)(σ 2 \sigma^2σ2已知),先验μ ∼ N ( μ 0 , σ 0 2 ) \mu \sim N(\mu_0,\sigma_0^2)μ∼N(μ0,σ02),则后验p ( μ ∣ x ) ∼ N ( μ n , σ n 2 ) p(\mu|x) \sim N(\mu_n,\sigma_n^2)p(μ∣x)∼N(μn,σn2),其中:
μ n = σ 2 σ 2 + N σ 0 2 μ 0 + N σ 0 2 σ 2 + N σ 0 2 x ˉ \mu_n = \frac{\sigma^2}{\sigma^2 + N\sigma_0^2}\mu_0 + \frac{N\sigma_0^2}{\sigma^2 + N\sigma_0^2}\bar{x}μn=σ2+Nσ02σ2μ0+σ2+Nσ02Nσ02xˉ
σ n 2 = σ 2 σ 0 2 σ 2 + N σ 0 2 \sigma_n^2 = \frac{\sigma^2 \sigma_0^2}{\sigma^2 + N\sigma_0^2}σn2=σ2+Nσ02σ2σ02
可见,贝叶斯估计是“先验均值μ 0 \mu_0μ0”和“样本均值x ˉ \bar{x}xˉ”的加权平均,样本量N NN越大,样本信息权重越高。
3 贝叶斯学习
贝叶斯学习是贝叶斯估计的延伸,核心思想是:不直接估计参数θ \thetaθ,而是经过参数的后验分布直接估计总体的概率密度p ( x ) p(x)p(x),从而跳过“参数估计”步骤,直接为决策提供分布依据。
3.1 基本思想
频率派和贝叶斯学习的路径对比:
- 频率派(如ML估计):样本→估计参数θ ^ \hat{\theta}θ^→用p ( x ∣ θ ^ ) p(x|\hat{\theta})p(x∣θ^)近似总体p ( x ) p(x)p(x);
- 贝叶斯学习:样本→计算参数后验p ( θ ∣ x ) p(\theta|x)p(θ∣x)→用p ( x ) = ∫ p ( x ∣ θ ) p ( θ ∣ x ) d θ p(x) = \int p(x|\theta)p(\theta|x)d\thetap(x)=∫p(x∣θ)p(θ∣x)dθ直接估计总体p ( x ) p(x)p(x)。
贝叶斯学习更贴合“不确定性建模”,尤其适用于小样本场景(先验信息可弥补样本不足)。
3.2 主干公式
贝叶斯学习的核心是“边际化参数”以得到总体概率密度,关键公式包括:
- 参数后验分布(同贝叶斯估计):
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}p(θ∣D)=p(D)p(D∣θ)p(θ)
其中D = { x 1 , . . . , x N } D = \{x_1,...,x_N\}D={x1,...,xN}为样本集。 - 总体概率密度估计(边际化参数θ \thetaθ):
p ( x ∣ D ) = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ p(x|D) = \int p(x|\theta)p(\theta|D)d\thetap(x∣D)=∫p(x∣θ)p(θ∣D)dθ
“参数条件下的密度就是该式表示:总体密度p ( x ∣ θ ) p(x|\theta)p(x∣θ)”在“参数后验分布p ( θ ∣ D ) p(\theta|D)p(θ∣D)”上的加权平均。
3.3 基本步骤
- 确定先验分布p ( θ ) p(\theta)p(θ):根据领域知识或无信息先验(如均匀分布)设定参数的初始分布;
- 计算似然函数p ( D ∣ θ ) p(D|\theta)p(D∣θ):由样本的独立同分布性,p ( D ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)p(D∣θ)=∏i=1Np(xi∣θ);
- 求参数后验分布p ( θ ∣ D ) p(\theta|D)p(θ∣D):利用贝叶斯公式计算,若先验与似然共轭(如正态-正态、Beta-二项),后验与先验同分布,计算更简便;
- 估计总体密度p ( x ∣ D ) p(x|D)p(x∣D):依据边际化参数得到p ( x ∣ D ) p(x|D)p(x∣D),用于后续分类(如贝叶斯分类器)或预测。
3.4 递推贝叶斯参数学习
当样本逐次到来(在线学习场景)时,无需重新计算所有样本的似然,可依据“递推”更新后验分布:
- 初始状态:给定初始先验p ( θ ∣ D 0 ) = p ( θ ) p(\theta|D_0) = p(\theta)p(θ∣D0)=p(θ)(D 0 D_0D0为空样本集);
- 递推更新:若新增样本x N + 1 x_{N+1}xN+1,则新后验p ( θ ∣ D N + 1 ) p(\theta|D_{N+1})p(θ∣DN+1)可由旧后验p ( θ ∣ D N ) p(\theta|D_N)p(θ∣DN)更新:
p ( θ ∣ D N + 1 ) = p ( x N + 1 ∣ θ ) p ( θ ∣ D N ) p ( x N + 1 ∣ D N ) p(\theta|D_{N+1}) = \frac{p(x_{N+1}|\theta)p(\theta|D_N)}{p(x_{N+1}|D_N)}p(θ∣DN+1)=p(xN+1∣DN)p(xN+1∣θ)p(θ∣DN)
其中p ( x N + 1 ∣ D N ) = ∫ p ( x N + 1 ∣ θ ) p ( θ ∣ D N ) d θ p(x_{N+1}|D_N) = \int p(x_{N+1}|\theta)p(\theta|D_N)d\thetap(xN+1∣DN)=∫p(xN+1∣θ)p(θ∣DN)dθ为边际似然。 - 优势:避免存储所有历史样本,仅需保存当前后验分布,适合实时数据处理。
4 概率的窗函数估计法
窗函数估计法是典型的非参数密度估计方法,核心思想是“用样本在局部区域的‘密度’近似总体在该点的密度”,无需假设总体分布概型。
4.1 引言:参数估计与非参数估计的对比
| 估计类型 | 核心假设 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| 参数估计 | 总体分布概型已知 | 计算简单、样本效率高 | 假设不成立时误差大 | 分布已知(如正态、泊松) |
| 非参数估计 | 无分布假设 | 适应性强、鲁棒性高 | 计算困难、需大量样本 | 分布未知或复杂 |
4.2 概率密度的基本估计式
从概率密度的定义出发推导非参数估计的核心公式:
- 概率密度定义:f ( x ) = lim V → 0 P ( x ∈ V ) V f(x) = \lim_{V \to 0} \frac{P(x \in V)}{V}f(x)=limV→0VP(x∈V),其中V VV是包含x xx的小邻域体积,P ( x ∈ V ) P(x \in V)P(x∈V)是样本落在V VV中的概率。
- 样本近似:用样本频率替代概率,即P ( x ∈ V ) ≈ k N P(x \in V) \approx \frac{k}{N}P(x∈V)≈Nk(k kk是落在V VV中的样本数,N NN是总样本数)。
- 主要估计式:当V VV足够小时,
f ( x ) ≈ f ^ N ( x ) = k N V f(x) \approx \hat{f}_N(x) = \frac{k}{N V}f(x)≈f^N(x)=NVk
该式是所有窗函数估计法的基础,关键在于如何选择V VV(或k kk)以平衡估计的偏差和方差。
4.3 提高概率密度估计精度的要求
为使f ^ N ( x ) \hat{f}_N(x)f^N(x)收敛到真实密度f ( x ) f(x)f(x),需满足以下渐近条件(当N → ∞ N \to \inftyN→∞时):
- 邻域体积V → 0 V \to 0V→0:保证邻域足够小,近似“局部密度”;
- 邻域内样本数k → ∞ k \to \inftyk→∞:保证频率k N \frac{k}{N}Nk能稳定近似概率P ( x ∈ V ) P(x \in V)P(x∈V);
- k N → 0 \frac{k}{N} \to 0Nk→0:避免k kk增长过快导致V VV无法趋近于0。
4.4 两种经典非参数估计方式
4.4.1 Parzen窗法
Parzen窗法通过“窗函数(核函数)”对邻域内的样本进行加权,解决“固定V VV时样本离散分布”的问题。
- 核心公式:选择窗函数ϕ ( u ) \phi(u)ϕ(u)(满足∫ ϕ ( u ) d u = 1 \int \phi(u)du = 1∫ϕ(u)du=1,如高斯窗、矩形窗),令V = h N d V = h_N^dV=hNd(d dd为样本维度,h N h_NhN为窗宽,随N NN减小),则:
f ^ N ( x ) = 1 N h N d ∑ i = 1 N ϕ ( x − x i h N ) \hat{f}_N(x) = \frac{1}{N h_N^d} \sum_{i=1}^N \phi\left( \frac{x - x_i}{h_N} \right)f^N(x)=NhNd1i=1∑Nϕ(hNx−xi) - 窗函数的条件:
- 非负性:ϕ ( u ) ≥ 0 \phi(u) \geq 0ϕ(u)≥0;
- 归一性:∫ − ∞ ∞ ϕ ( u ) d u = 1 \int_{-\infty}^{\infty} \phi(u)du = 1∫−∞∞ϕ(u)du=1;
- 对称性:ϕ ( u ) = ϕ ( − u ) \phi(u) = \phi(-u)ϕ(u)=ϕ(−u)(保证估计无偏)。
- 示例:高斯窗函数ϕ ( u ) = 1 ( 2 π ) d / 2 exp ( − 1 2 ∥ u ∥ 2 ) \phi(u) = \frac{1}{(2\pi)^{d/2}} \exp\left( -\frac{1}{2} \|u\|^2 \right)ϕ(u)=(2π)d/21exp(−21∥u∥2),此时Parzen窗估计为样本的“加权高斯核叠加”。
4.4.2 k N k_NkN近邻法
k N k_NkN:就是近邻法与Parzen窗法的核心区别固定邻域内的样本数k N k_NkN,调整邻域体积V N ( x ) V_N(x)VN(x)(V N ( x ) V_N(x)VN(x)是包含x xx和k N k_NkN个样本的最小邻域体积)。
- 核心公式:令k N k_NkN满足k N → ∞ k_N \to \inftykN→∞且k N N → 0 \frac{k_N}{N} \to 0NkN→0(N → ∞ N \to \inftyN→∞),则:
f ^ N ( x ) = k N N V N ( x ) \hat{f}_N(x) = \frac{k_N}{N V_N(x)}f^N(x)=NVN(x)kN - 优势:自适应调整邻域体积——在样本密集区域,V N ( x ) V_N(x)VN(x)小,估计精度高;在样本稀疏区域,V N ( x ) V_N(x)VN(x)大,避免估计值为0。
- 与Parzen窗法的对比:Parzen窗法是“固定V VV,变k kk”,k N k_NkN近邻法是“固定k kk,变V VV”。
5 错误率估计
评价分类器性能的核心指标,定义为“分类器对未知样本分类错误的概率”。由于真实错误率无法直接计算,需通过样本资料进行实验估算。就是错误率
5.1 分类器错误率的实验估算基本原理
- 真实错误率(贝叶斯错误率):P e = E [ I ( y ≠ y ^ ) ] P_e = E[I(y \neq \hat{y})]Pe=E[I(y=y^)],其中I ( ⋅ ) I(\cdot)I(⋅)为指示函数(真为1,假为0),y yy为真实标签,y ^ \hat{y}y^为分类器预测标签。
- 实验估算原理:用“独立于训练集的测试集”上的错误频率替代真实错误率,即:
P ^ e = 1 M ∑ i = 1 M I ( y i ≠ y ^ i ) \hat{P}_e = \frac{1}{M} \sum_{i=1}^M I(y_i \neq \hat{y}_i)P^e=M1i=1∑MI(yi=y^i)
其中M MM为测试集样本数,y i y_iyi和y ^ i \hat{y}_iy^i分别为测试样本的真实标签和预测标签。
5.2 样本抽取方式对误判概率估计的影响
样本抽取的关键是“训练集与测试集独立”,否则会导致估计偏倚:
- 无偏抽取:训练集D t r D_{tr}Dtr和测试集D t e D_{te}Dte从同一总体独立抽取,且D t r ∩ D t e = ∅ D_{tr} \cap D_{te} = \emptysetDtr∩Dte=∅,此时P ^ e \hat{P}_eP^e是P e P_ePe的无偏估计。
- 有偏抽取:
- 测试集包含训练集样本(过拟合测试):P ^ e \hat{P}_eP^e远小于真实P e P_ePe,高估分类器性能;
- 训练集与测试集来自不同总体(如训练集是“白天图像”,测试集是“夜晚图像”):P ^ e \hat{P}_eP^e远大于真实P e P_ePe,低估分类器性能。
5.3 训练与测试样本集的大小对错误率的影响
- 训练集大小N NN的影响:
- N NN较小时:分类器无法充分学习总体规律,过拟合风险高,测试错误率高;
- N NN增大时:分类器逐渐逼近总体规律,测试错误率下降并趋于稳定(收敛到贝叶斯错误率)。
- 测试集大小M MM的影响:
- M MM较小时:错误频率的方差大,P ^ e \hat{P}_eP^e波动大(如M = 10 M=10M=10时,错误数差1个就导致P ^ e \hat{P}_eP^e差10%);
- M MM增大时:错误频率的方差减小,P ^ e \hat{P}_eP^e更接近真实P e P_ePe(依大数定律收敛)。
5.4 训练样本启用技术及错误率的测试
当样本总量有限时(如N + M N+MN+M较小),需通过“重复利用样本”提高估计精度,常见方式包括:
留一法(Leave-One-Out, LOO):
- 将N NN个样本依次留1个作为测试集,剩余N − 1 N-1N−1个作为训练集;
- 共进行N NN次实验,计算平均错误率:P ^ L O O = 1 N ∑ i = 1 N I ( y i ≠ y ^ i ( i ) ) \hat{P}_{LOO} = \frac{1}{N} \sum_{i=1}^N I(y_i \neq \hat{y}_i^{(i)})P^LOO=N1∑i=1NI(yi=y^i(i)),其中y ^ i ( i ) \hat{y}_i^{(i)}y^i(i)是用不含x i x_ixi的训练集预测x i x_ixi的结果;
- 优势:无偏估计,充分利用样本;劣势:计算量大(需训练N NN个分类器)。
k kk折交叉验证(k kk-fold Cross Validation):
- 将样本随机分为k kk个等大子集(如k = 5 k=5k=5或k = 10 k=10k=10);
- 依次用k − 1 k-1k−1个子集作为训练集,1个子集作为测试集,共进行k kk次实验;
- 平均错误率:P ^ k − f o l d = 1 k ∑ j = 1 k P ^ e , j \hat{P}_{k-fold} = \frac{1}{k} \sum_{j=1}^k \hat{P}_{e,j}P^k−fold=k1∑j=1kP^e,j,其中P ^ e , j \hat{P}_{e,j}P^e,j是第j jj次实验的错误率;
- 优势:平衡估计无偏性和计算量,是工程中最常用的方法。
5.5 从学习曲线估计错误率
学习曲线是“分类器错误率随训练样本量N NN变化的曲线”,其核心作用是:
- 判断样本是否充足:若曲线趋于平缓,说明当前N NN已足够,增加样本对错误率降低无明显帮助;
- 估计贝叶斯错误率:曲线平缓后的极限值可视为贝叶斯错误率的近似;
- 诊断过拟合/欠拟合:
- 欠拟合:训练错误率和测试错误率都高,且曲线未平缓,需增加N NN或改进模型;
- 过拟合:训练错误率低,但测试错误率高,且两者差距大,需正则化或增加样本。
小结
本文围绕“统计推断”展开,从“参数估计”(矩法、ML、贝叶斯)到“贝叶斯学习”(直接估计总体密度),再到“非参数估计”(Parzen窗、k N k_NkN近邻),最终落脚于“错误率估计”(交叉验证、学习曲线),形成了“从数据建模到性能评价”的完整逻辑链。这些方式是模式识别中“数据驱动决策”的基础,也是后续复杂模型(如神经网络、支持向量机)的理论支撑。