人工智能十大数学知识 - 概率与统计学 - 何苦

news/2025/10/28 0:26:38/文章来源:https://www.cnblogs.com/fuqian/p/19170495

人工智能十大数学知识 - 概率与统计学

人工智能中的概率与统计学核心知识(Probability and Statistics for AI)

概率与统计学是AI量化不确定性、从数据中学习规律的核心工具——从模型参数估计(如线性回归权重)到生成式模型(如GAN),从模型评估(如A/B测试)到业务决策(如推荐策略),均以其为数学基础。

1. 概率基础与公理(Probability Fundamentals & Axioms)

概率通过严格的公理体系,标准化对“随机事件可能性”的描述,是AI处理不确定性问题的底层逻辑。

1.1 古典概型(Classical Probability)

  • 公式:若试验的样本空间 \(\Omega\) 包含 \(n\)等可能且互斥的基本事件,事件 \(A\) 包含其中 \(m\) 个基本事件,则事件 \(A\) 的概率为:
    \(P(A) = \frac{m}{n}\)
  • 解说:适用于“结果有限、每个结果概率均等”的场景,是概率的直观定义。例如抛均匀硬币,“正面朝上”的概率 \(P(正面)=\frac{1}{2}\);掷均匀骰子,“点数为偶数”的概率 \(P(偶数)=\frac{3}{6}=\frac{1}{2}\)

1.2 公理化定义(Axiomatic Definition)

由柯尔莫哥洛夫提出的三大公理,奠定概率计算的严谨性:

  1. 非负性:对任意事件 \(A\),概率非负,即 \(P(A) \geq 0\)
  2. 规范性:样本空间 \(\Omega\)(所有可能结果的集合)的概率为1,即 \(P(\Omega) = 1\)
  3. 可列可加性:对两两互斥的事件序列 \(A_1, A_2, \dots\)(任意 \(i \neq j\)\(A_i \cap A_j = \emptyset\)),有 \(P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\)
  • 解说:所有概率计算需满足这三大公理,例如AI中“模型预测某样本为‘猫’”的概率必须在 \([0,1]\) 之间,且“预测为猫、狗、其他”的概率之和需为1。

1.3 联合概率与边缘概率(Joint & Marginal Probability)

  • 联合概率:描述“多个事件同时发生”的概率,离散场景记为 \(P(A,B)\)(事件 \(A\)\(B\) 同时发生),连续场景记为 \(f(A,B)\)(联合概率密度函数);
  • 边缘概率:通过“对其他事件求和/积分”从联合概率中提取单个事件的概率:
    • 离散场景:\(P(A) = \sum_{B} P(A,B)\)(对所有可能的 \(B\) 求和);
    • 连续场景:\(P(A) = \int_{B} f(A,B) dB\)(对所有可能的 \(B\) 积分)。
  • 解说:联合概率是“多维度不确定性”的描述(如“样本特征为‘高’且标签为‘猫’”的概率 \(P(特征=高, 标签=猫)\)),边缘概率是“忽略部分维度”后的简化(如仅“标签为猫”的概率 \(P(标签=猫)\))。

1.4 条件概率与贝叶斯定理(Conditional Probability & Bayes’ Theorem)

条件概率(Conditional Probability)

  • 公式:若 \(P(B) > 0\),则事件 \(B\) 发生的条件下,事件 \(A\) 发生的概率为:
    \(P(A|B) = \frac{P(A,B)}{P(B)}\)
  • 解说:量化“已知部分信息后,事件可能性的更新”。例如在AI中,“已知样本特征为‘有羽毛’(\(B\)),则样本标签为‘鸟’(\(A\))”的概率 \(P(标签=鸟|特征=有羽毛)\),远高于无此条件的 \(P(标签=鸟)\)

贝叶斯定理(Bayes’ Theorem)

  • 公式:结合条件概率与全概率公式,实现“从结果反推原因”的概率更新:
    \(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\)
    其中:
    • \(P(A)\)先验概率(无 \(B\) 信息时,对 \(A\) 的初始判断,如“样本为鸟”的基础概率);
    • \(P(B|A)\)似然\(A\) 发生时 \(B\) 发生的概率,如“样本为鸟时,特征为有羽毛”的概率);
    • \(P(B)\)证据\(B\) 发生的总概率,用于归一化,确保后验概率在 \([0,1]\) 内);
    • \(P(A|B)\)后验概率(结合 \(B\) 信息后,对 \(A\) 的更新判断,如“已知特征为有羽毛,样本为鸟”的最终概率)。
  • 解说:AI中贝叶斯模型的核心(如朴素贝叶斯分类器、贝叶斯神经网络)。例如垃圾邮件检测中,用贝叶斯定理计算“已知邮件包含‘优惠’一词(\(B\)),则邮件为垃圾邮件(\(A\))”的后验概率 \(P(垃圾邮件|包含优惠)\)

1.5 乘法公式(Multiplication Rule)

  • 公式:两事件的联合概率可表示为“一个事件的概率 × 另一事件的条件概率”:
    \(P(A,B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)\)
    推广到 \(n\) 个事件:
    \(P(A_1,A_2,\dots,A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1,A_2) \cdot \dots \cdot P(A_n|A_1,\dots,A_{n-1})\)
  • 解说:用于计算“多事件连锁发生”的概率。例如NLP中,计算“句子‘我喜欢AI’”的联合概率 \(P(我,喜欢,AI) = P(我) \cdot P(喜欢|我) \cdot P(AI|我,喜欢)\)

1.6 全概率公式(Law of Total Probability)

  • 公式:设 \(B_1,B_2,\dots,B_n\) 是样本空间 \(\Omega\)划分(满足:① 两两互斥,即 \(B_i \cap B_j = \emptyset\);② 覆盖所有可能,即 \(\bigcup_{i=1}^n B_i = \Omega\);③ \(P(B_i) > 0\)),则对任意事件 \(A\)
    \(P(A) = \sum_{i=1}^n P(B_i) \cdot P(A|B_i)\)
  • 解说:将复杂事件 \(A\) 的概率,分解为“不同原因/场景 \(B_i\) 下的条件概率加权和”,简化计算。例如AI风险评估中,“用户违约(\(A\))”的概率可分解为“用户为学生(\(B_1\))、上班族(\(B_2\))、自由职业者(\(B_3\))”等场景下的条件概率加权和。

1.7 独立性与互斥性(Independence & Mutual Exclusivity)

事件独立性(Independence)

  • 公式:若事件 \(A\)\(B\) 独立,则 \(P(A,B) = P(A) \cdot P(B)\),等价于 \(P(A|B) = P(A)\)\(P(B) > 0\))。
  • 核心性质\(B\) 的发生不影响 \(A\) 的概率。例如“抛硬币正面朝上(\(A\))”与“掷骰子点数为3(\(B\))”独立。
  • AI应用:朴素贝叶斯分类器的核心假设——“样本各特征独立”(如“文本包含‘篮球’(\(A_1\))”与“包含‘足球’(\(A_2\))”独立),大幅简化联合概率计算(\(P(A_1,A_2|类别) = P(A_1|类别) \cdot P(A_2|类别)\))。

事件互斥性(Mutual Exclusivity)

  • 公式:若事件 \(A\)\(B\) 互斥(无交集,即 \(A \cap B = \emptyset\)),则 \(P(A \cup B) = P(A) + P(B)\),且 \(P(A,B) = 0\)
  • 核心性质\(A\)\(B\) 不能同时发生。例如AI分类任务中,“样本标签为‘猫’(\(A\))”与“标签为‘狗’(\(B\))”互斥。
  • AI应用:多分类模型的输出验证——预测为“猫”“狗”“其他”的概率之和应接近1,且任意两类的联合概率为0(无样本同时被预测为两类)。

2. 概率分布(Probability Distributions)

随机变量是AI数据的“数学化身”(如分类标签为离散随机变量,图像像素值为连续随机变量),概率分布则描述随机变量的“取值规律”,是AI建模的核心组件。

2.1 离散型分布(Discrete Distributions)

离散型随机变量的取值为有限或可列个,用概率质量函数(PMF) \(P(X=k)\) 描述取值概率。

1. 两点分布(伯努利分布,Bernoulli Distribution)

  • 定义:描述“单次二值试验”的结果(如成功/失败、正/负类);
  • PMF公式:设随机变量 \(X \in \{0,1\}\)(1表示“成功”,0表示“失败”),成功概率为 \(p\)\(0 < p < 1\)),则:
    \(P(X=k) = p^k (1-p)^{1-k}, \quad k=0,1\)
  • AI应用:二分类任务的标签建模(如“用户点击广告(\(X=1\))”或“未点击(\(X=0\))”)、单个样本的预测结果概率(如模型输出“样本为正类”的概率 \(p\))。

2. 二项分布(Binomial Distribution)

  • 定义:描述“\(n\) 次独立伯努利试验”中“成功次数”的分布;
  • PMF公式:设随机变量 \(X\) 表示 \(n\) 次试验中的成功次数(\(X \in \{0,1,\dots,n\}\)),单次成功概率为 \(p\),则:
    \(P(X=k) = C_n^k p^k (1-p)^{n-k}, \quad k=0,1,\dots,n\)
    其中 \(C_n^k = \frac{n!}{k!(n-k)!}\) 为组合数(从 \(n\) 次试验中选 \(k\) 次成功的方式数);
  • AI应用:批量样本的预测准确率统计(如“100个测试样本中,模型正确分类的次数 \(X\) 服从二项分布 \(B(100, p)\)\(p\) 为单样本准确率”)、点击率统计(如“1000次广告曝光中,点击次数 \(X\) 服从 \(B(1000, CTR)\)”)。

3. 泊松分布(Poisson Distribution)

  • 定义:描述“单位时间/空间内,稀有随机事件发生次数”的分布(如单位时间内的异常请求数);
  • PMF公式:设随机变量 \(X\) 表示事件发生次数(\(X \in \{0,1,2,\dots\}\)),事件发生率为 \(\lambda > 0\),则:
    \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,\dots\)
  • AI应用:异常检测(如“服务器每秒正常请求数服从 \(P(5)\),若某秒请求数为15(远大于 \(\lambda=5\)),则判定为异常”)、客服呼叫量预测(如“每小时呼叫量服从 \(P(20)\),用于调度客服人员”)。

2.2 连续型分布(Continuous Distributions)

连续型随机变量的取值覆盖某一区间,用概率密度函数(PDF) \(f(x)\) 描述取值的“密度”(需通过积分计算区间概率)。

1. 正态分布(高斯分布,Normal Distribution)

  • 定义:自然界最常见的分布,呈“钟形对称”,由均值 \(\mu\)(位置参数)和方差 \(\sigma^2\)(尺度参数)决定;
  • PDF公式:设随机变量 \(X \sim N(\mu, \sigma^2)\),则:
    \(f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x \in (-\infty, +\infty)\)
    \(\mu=0\)\(\sigma^2=1\) 时,称为标准正态分布 \(N(0,1)\)
  • AI应用
    • 模型权重初始化(如Xavier初始化:权重服从 \(N(0, \frac{1}{n_{in}})\)\(n_{in}\) 为输入维度,避免激活函数饱和);
    • 高斯混合模型(GMM):用多个正态分布的加权和拟合数据的多峰分布,用于聚类(如用户行为分群);
    • 数据预处理(如Z-score标准化:将特征转换为 \(N(0,1)\) 分布,加速模型训练)。

2. 均匀分布(Uniform Distribution)

  • 定义:描述“区间 \([a,b]\) 内所有值等概率出现”的分布;
  • PDF公式:设随机变量 \(X \sim U(a,b)\),则:
    \(f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases}\)
  • AI应用
    • 随机采样(如生成对抗网络(GAN)的噪声输入:从 \(U(-1,1)\) 采样噪声向量);
    • 超参数随机搜索(如学习率从 \(U(10^{-5}, 10^{-2})\) 中随机选取,寻找最优值);
    • 初始化(如某些模型的偏置项初始化:从 \(U(-0.1, 0.1)\) 采样)。

3. 指数分布(Exponential Distribution)

  • 定义:描述“连续型随机事件的间隔时间”(如设备寿命、用户会话间隔),具有“无记忆性”;
  • PDF公式:设随机变量 \(X\) 表示间隔时间(\(X \geq 0\)),速率参数为 \(\lambda > 0\),则:
    \(f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases}\)
  • 核心性质(无记忆性)\(P(X > s+t | X > s) = P(X > t)\)(如“设备已工作 \(s\) 小时,再工作 \(t\) 小时的概率,等于新设备工作 \(t\) 小时的概率”);
  • AI应用:设备故障预测(如“服务器无故障运行时间服从 \(Exp(0.01)\),预测下100小时故障概率”)、用户留存分析(如“用户上次登录后,间隔 \(t\) 天再次登录的概率”)。

3. 随机变量的数字特征(Numerical Characteristics)

通过“均值、方差”等数字特征,提炼随机变量的核心信息(如数据的中心趋势、离散程度),是AI特征工程、模型评估的关键指标。

3.1 数学期望(Expected Value,均值)

  • 定义:随机变量取值的“加权平均”,反映数据的中心趋势;
  • 公式
    • 离散型:\(E[X] = \sum_{k} x_k P(X=x_k)\)(对所有可能取值 \(x_k\) 加权求和,权重为 \(P(X=x_k)\));
    • 连续型:\(E[X] = \int_{-\infty}^{+\infty} x f(x) dx\)(对所有可能取值 \(x\) 加权积分,权重为 \(f(x)\));
  • 核心性质
    1. \(E[c] = c\)(常数的期望为自身,\(c\) 为常数);
    2. \(E[aX + b] = aE[X] + b\)(线性变换的期望,\(a,b\) 为常数);
    3. \(E[X + Y] = E[X] + E[Y]\)(期望的可加性,无需 \(X,Y\) 独立);
    4. \(X,Y\) 独立,则 \(E[XY] = E[X]E[Y]\)(独立变量的期望可乘性);
  • AI应用
    • 损失函数设计(如均方误差 \(MSE = E[(y - \hat{y})^2]\),目标是最小化“真实标签 \(y\) 与预测值 \(\hat{y}\) 差值的期望”);
    • 模型性能评估(如分类准确率的期望 \(E[正确分类]\),即长期平均准确率);
    • 强化学习(策略的累积奖励期望 \(E[\sum_{t=0}^T r_t]\),目标是最大化该期望)。

3.2 方差(Variance)

  • 定义:衡量随机变量取值相对于“期望”的离散程度,方差越大,数据越分散;
  • 公式\(Var(X) = E\left[(X - E[X])^2\right] = E[X^2] - (E[X])^2\)(后者为计算简化形式);
  • 核心性质
    1. \(Var[c] = 0\)(常数的方差为0,无离散性);
    2. \(Var[aX + b] = a^2 Var(X)\)(线性变换的方差,常数 \(b\) 不影响离散性);
    3. \(X,Y\) 独立,则 \(Var(X + Y) = Var(X) + Var(Y)\)(独立变量的方差可加性);
  • AI应用
    • 特征选择(剔除方差小于阈值的“无效特征”,如“所有样本的‘性别’特征均为‘男’,方差为0,无区分度”);
    • 模型稳定性评估(如测试集准确率的方差,方差小说明模型在不同测试集上的性能更稳定);
    • 权重初始化(如He初始化通过方差控制,使各层激活值的方差保持一致,避免梯度消失)。

3.3 协方差与相关系数(Covariance & Correlation Coefficient)

协方差(Covariance)

  • 定义:衡量两个随机变量 \(X,Y\) 的“线性关联方向”(正相关/负相关/无线性相关);
  • 公式\(Cov(X,Y) = E\left[(X - E[X])(Y - E[Y])\right] = E[XY] - E[X]E[Y]\)
  • 核心解读
    • \(Cov(X,Y) > 0\)\(X\) 增大时,\(Y\) 倾向于增大(正线性相关);
    • \(Cov(X,Y) < 0\)\(X\) 增大时,\(Y\) 倾向于减小(负线性相关);
    • \(Cov(X,Y) = 0\)\(X\)\(Y\) 无线性相关(但可能存在非线性相关,如 \(Y=X^2\));
  • AI应用:特征冗余检测(如“身高”与“体重”的协方差为正,且绝对值较大,说明两者存在正线性相关,可考虑合并特征以减少冗余)。

相关系数(Correlation Coefficient)

  • 定义:对协方差的“标准化”,消除量纲影响,使取值范围固定在 \([-1,1]\),更直观地衡量线性关联强度;
  • 公式\(\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\)
  • 核心解读
    • \(|\rho_{XY}|\) 越接近1:线性关联越强(\(\rho_{XY}=1\) 为完全正线性相关,\(\rho_{XY}=-1\) 为完全负线性相关);
    • \(|\rho_{XY}|\) 越接近0:线性关联越弱;
  • AI应用:多变量线性回归的多重共线性检测(如“房屋面积”与“房间数”的 \(\rho_{XY}=0.95\),说明多重共线性严重,需剔除一个特征以避免模型参数不稳定)。

4. 大数定律与中心极限定理(Law of Large Numbers & CLT)

这两大定理是“用样本推断总体”的理论基石,解释了为何“足够多的训练数据能让模型学到通用规律”。

4.1 大数定律(Law of Large Numbers,LLN)

  • 核心思想:当样本量足够大时,“样本均值”会依概率收敛于“总体均值”——即“样本越多,对总体的估计越准确”;
  • 常见形式
    1. 切比雪夫大数定律:设 \(X_1,X_2,\dots\) 是相互独立的随机变量序列,且各变量的期望 \(E[X_i]=\mu\)、方差 \(Var(X_i)=\sigma^2\)(有限),则对任意 \(\epsilon > 0\)
      \(\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \epsilon\right) = 1\)
    2. 伯努利大数定律:设 \(n_A\)\(n\) 重伯努利试验中事件 \(A\) 发生的次数,单次发生概率为 \(p\),则对任意 \(\epsilon > 0\)
      \(\lim_{n \to \infty} P\left(\left|\frac{n_A}{n} - p\right| < \epsilon\right) = 1\)
  • AI应用
    • 模型训练的“数据量必要性”:为何需要大量训练数据?大数定律表明,样本量越大,“训练集上的损失均值”越接近“全量数据上的真实损失均值”,模型泛化能力越强;
    • 蒙特卡洛模拟(如用大量随机采样的样本均值,估计复杂积分的结果,用于强化学习的价值函数近似)。

4.2 中心极限定理(Central Limit Theorem,CLT)

  • 核心思想:无论总体服从何种分布,当样本量 \(n\) 足够大时(通常 \(n \geq 30\)),“样本均值 \(\bar{X}\)”的分布会近似服从正态分布——即“大样本的均值分布具有普适的正态性”;
  • 公式:设总体均值为 \(\mu\)、方差为 \(\sigma^2\),从总体中抽取 \(n\) 个独立样本 \(X_1,\dots,X_n\),则样本均值 \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\) 满足:
    \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)
    标准化后:\(\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \approx N(0,1)\)
  • AI应用
    • 模型性能的置信区间估计(如“测试集准确率的样本均值为90%,样本量 \(n=100\),总体标准差 \(\sigma=5\%\),则95%置信区间为 \(90\% \pm 1.96 \times \frac{5\%}{\sqrt{100}} = [89.02\%, 90.98\%]\)”,即“真实准确率有95%概率在此区间内”);
    • A/B测试的显著性检验(如“策略A的点击率样本均值为5%,策略B为7%,样本量均为1000,用CLT判断两者差异是否显著”)。

5. 统计推断(Statistical Inference)

统计推断通过“有限样本”推断“总体规律”,是AI从数据中学习、评估模型泛化能力的核心手段,主要包括“参数估计”和“假设检验”两大任务。

5.1 抽样分布(Sampling Distributions)

  • 定义:“样本统计量”(如样本均值 \(\bar{X}\)、样本方差 \(s^2\))的概率分布,是参数估计和假设检验的基础;
  • 常见抽样分布
    1. 样本均值分布(正态总体)
      • 若总体 \(X \sim N(\mu, \sigma^2)\),且 \(\sigma^2\) 已知,则样本均值 \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
      • \(\sigma^2\) 未知(实际场景更常见),用样本方差 \(s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\) 替代,则 \(\frac{\bar{X} - \mu}{s/\sqrt{n}} \sim t(n-1)\)\(t\) 分布,\(n-1\) 为自由度);
    2. 样本方差分布:若总体 \(X \sim N(\mu, \sigma^2)\),则 \(\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)\)(卡方分布);
  • AI应用:小样本场景的模型评估(如测试样本量 \(n=20\),用 \(t\) 分布估计准确率的置信区间,比正态分布更准确)。

5.2 参数估计(Parameter Estimation)

  • 定义:从样本数据中估计“总体参数”(如总体均值 \(\mu\)、正态分布的方差 \(\sigma^2\)),分为“点估计”和“区间估计”;

1. 点估计(Point Estimation)

  • 定义:用单个数值(样本统计量)估计总体参数,如用“样本均值 \(\bar{X}\)”估计“总体均值 \(\mu\)”;
  • 常用方法
    • 最大似然估计(MLE,Maximum Likelihood Estimation)
      • 核心思想:“让观测样本的概率最大”——即选择参数 \(\hat{\theta}\),使样本 \(x_1,\dots,x_n\) 出现的联合概率(似然函数)最大;
      • 公式:设总体的概率密度/质量函数为 \(f(x|\theta)\),似然函数 \(L(\theta) = \prod_{i=1}^n f(x_i|\theta)\),取对数简化计算(对数似然函数 \(\ln L(\theta) = \sum_{i=1}^n \ln f(x_i|\theta)\)),则 MLE 估计量为:
        \(\hat{\theta}_{MLE} = \arg\max_{\theta} \ln L(\theta)\)
      • AI应用:线性回归、逻辑回归的参数求解(如逻辑回归通过最大化“样本标签的对数似然”,估计回归系数 \(\theta\));
    • 贝叶斯估计(Bayesian Estimation)
      • 核心思想:结合“参数的先验分布 \(p(\theta)\)”和“样本的似然 \(p(x|\theta)\)”,通过贝叶斯定理得到“参数的后验分布 \(p(\theta|x)\)”,用后验分布的均值/中位数作为估计值;
      • 公式:\(\hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x) d\theta\)(后验期望);
      • AI应用:贝叶斯神经网络(BNN)——将权重视为随机变量,用贝叶斯估计得到权重的后验分布,量化预测的不确定性(如自动驾驶中“前方障碍物距离预测”的置信区间)。

2. 区间估计(Interval Estimation)

  • 定义:用“区间 \([\hat{\theta}_L, \hat{\theta}_U]\)”估计总体参数,给出“估计的可信程度”(置信水平 \(1-\alpha\),如95%);
  • 公式(以总体均值 \(\mu\) 为例)
    若总体方差未知、样本量较小,95%置信区间为:
    \(\bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}\)
    其中 \(t_{\alpha/2}(n-1)\)\(t\) 分布的上 \(\alpha/2\) 分位数(如 \(\alpha=0.05\) 时,\(t_{0.025}(19)=2.093\));
  • AI应用:模型性能报告(如“模型在测试集上的准确率为92%,95%置信区间为 [88%, 96%]”,比单独的“92%准确率”更严谨,体现估计的不确定性)。

5.3 假设检验(Hypothesis Testing)

  • 定义:通过样本数据验证“对总体的猜想(假设)”是否成立,核心是“判断样本与假设的差异是否由随机误差导致”;
  • 核心步骤
    1. 提出假设:原假设 \(H_0\)(如“模型A与模型B的准确率无差异”)、备择假设 \(H_1\)(如“模型A的准确率高于模型B”);
    2. 选择检验统计量:如大样本下用 \(Z\) 统计量,小样本下用 \(t\) 统计量;
    3. 确定拒绝域:根据显著性水平 \(\alpha\)(如0.05),确定“拒绝 \(H_0\) 的统计量阈值”;
    4. 计算统计量并决策:若统计量落入拒绝域,则拒绝 \(H_0\),接受 \(H_1\);否则不拒绝 \(H_0\)
  • AI应用
    • 模型性能对比(如“模型A的准确率为92%(\(n_1=100\)),模型B为85%(\(n_2=100\)),用 \(Z\) 检验判断A的准确率是否显著高于B”);
    • 特征有效性检验(如“加入新特征后,模型的AUC提升0.03,用假设检验判断该提升是否由随机误差导致”);
    • A/B测试(如“推荐策略A的点击率为5%(\(n=1000\)),策略B为7%(\(n=1000\)),检验B的点击率是否显著高于A,决定是否上线B”)。

6. 信息论基础(Fundamentals of Information Theory)

信息论量化“信息的多少”和“分布的差异”,是AI模型设计(如损失函数)、特征选择、生成式模型的核心工具。

6.1 香农熵(Shannon Entropy)

  • 定义:衡量随机变量的“不确定性”——熵越大,变量的取值越不可预测;
  • 公式(离散型):设离散随机变量 \(X\) 的取值为 \(x_1,\dots,x_k\),概率为 \(p(x_1),\dots,p(x_k)\),则:
    \(H(X) = -\sum_{x \in X} p(x) \log_b p(x)\)
    其中 \(b\) 为对数底数(\(b=2\) 时单位为“比特(bit)”,\(b=e\) 时为“纳特(nat)”,AI中常用 \(b=e\)\(b=2\));
  • 核心解读
    • \(X\) 为确定值(如 \(p(x_1)=1\)),则 \(H(X)=0\)(无不确定性);
    • \(X\) 为二值变量且 \(p(0)=p(1)=0.5\),则 \(H(X)=\log_2 2=1\)(不确定性最大);
  • AI应用:决策树(ID3/C4.5)的特征选择——用“信息增益”(父节点熵 - 子节点条件熵)选择“降低样本不确定性最显著的特征”(如“是否有羽毛”的信息增益高于“是否有腿”,优先作为分裂特征)。

6.2 交叉熵(Cross-Entropy)

  • 定义:衡量“预测分布 \(q\)”与“真实分布 \(p\)”的“信息差异”——交叉熵越小,两个分布越接近;
  • 公式\(H(p,q) = -\sum_{x \in X} p(x) \log_b q(x)\)
  • 核心性质:当 \(p(x)=q(x)\) 时,\(H(p,q)=H(p)\)(交叉熵等于香农熵,此时信息差异最小);
  • AI应用:分类任务的损失函数(如Softmax回归、神经网络输出层)——真实分布 \(p\) 为“标签的one-hot分布”(如标签为“猫”时,\(p(猫)=1\)\(p(狗)=p(其他)=0\)),预测分布 \(q\) 为模型输出的概率(如 \(q(猫)=0.8\)\(q(狗)=0.1\)\(q(其他)=0.1\)),交叉熵损失 \(H(p,q)=-\log q(猫)\),目标是最小化该损失以让 \(q\) 逼近 \(p\)

6.3 KL散度(Kullback-Leibler Divergence)

  • 定义:又称“相对熵”,量化“预测分布 \(q\)”相对于“真实分布 \(p\)”的“差异程度”——KL散度非负,仅当 \(p=q\) 时为0;
  • 公式\(KL(p||q) = \sum_{x \in X} p(x) \log_b \frac{p(x)}{q(x)} = H(p,q) - H(p)\)
  • 核心性质不对称性\(KL(p||q) \neq KL(q||p)\))——即“用 \(q\) 近似 \(p\) 的差异”与“用 \(p\) 近似 \(q\) 的差异”不同;
  • AI应用
    • 变分自编码器(VAE):用 \(KL(q(z|x)||p(z))\) 作为正则项,迫使“隐变量 \(z\) 的后验分布 \(q(z|x)\)”逼近“先验分布 \(p(z)\)(如标准正态分布)”,保证生成样本的多样性;
    • 生成对抗网络(GAN):用JS散度(KL散度的对称变体)衡量“真实图像分布 \(p\)”与“生成图像分布 \(q\)”的差异,指导生成器优化。

7. 概率与统计学在AI中的典型应用(Typical AI Applications)

7.1 机器学习模型

  • 监督学习
    • 线性/逻辑回归:用最大似然估计(MLE)求解参数,用均方误差(基于期望)、交叉熵(基于分布差异)作为损失函数;
    • 朴素贝叶斯:基于“特征条件独立假设”,用贝叶斯定理计算 \(P(类别|特征)\),快速实现文本分类(如垃圾邮件检测)、情感分析;
    • 支持向量机(SVM):用统计学习理论中的“VC维”分析泛化能力,通过最大化“分类间隔”找到最优超平面;
  • 无监督学习
    • K-Means聚类:假设数据服从“K个高斯分布的混合模型”,通过EM算法(期望最大化,基于概率分布的迭代估计)求解聚类中心;
    • 异常检测:基于“正态分布”(如将特征标准化后,超出 \([\mu-3\sigma, \mu+3\sigma]\) 的样本视为异常)或“泊松分布”(如单位时间内的异常请求数),识别偏离正常模式的样本;
  • 强化学习
    • 策略梯度(Policy Gradient):用“累积奖励的期望”定义策略价值,通过梯度上升最大化该期望,更新策略网络参数;
    • Q-Learning:用“动作价值的概率分布”描述“选择某动作的长期收益”,优先选择价值期望最大的动作。

7.2 深度学习

  • 权重初始化:基于正态分布(如Xavier初始化:\(N(0, \frac{1}{n_{in}})\),He初始化:\(N(0, \frac{2}{n_{in}})\))或均匀分布,避免激活函数(如Sigmoid、ReLU)输出饱和;
  • 批量归一化(BN):将每层输入标准化为 \(N(0,1)\) 分布,减少“内部协变量偏移”,加速训练收敛;
  • 生成模型
    • GAN:通过“生成器”与“判别器”的对抗,让生成数据的分布逼近真实数据分布,判别器的损失基于交叉熵(衡量“真实/生成数据分布的差异”);
    • VAE:用KL散度约束隐变量分布,用重构损失(基于均方误差/交叉熵)保证生成数据与输入数据的相似性;
  • 不确定性量化:贝叶斯神经网络(BNN)通过“参数的后验分布”,输出预测结果的概率区间(如医疗AI中“肿瘤良恶性预测的90%置信区间”)。

7.3 业务场景落地

  • 自然语言处理(NLP)
    • 文本分类:用朴素贝叶斯计算“文本属于某类别的后验概率”,或用Transformer模型的交叉熵损失训练分类器;
    • 语言模型:通过统计“词序列的联合概率”(如N-gram模型)或自注意力学习概率分布(如GPT的“下一个词预测”,基于前序词的条件概率);
  • 计算机视觉(CV)
    • 目标检测:用概率分布描述“目标框的位置(如中心点坐标服从正态分布)”和“类别(如Softmax输出类别概率)”,如YOLO、Faster R-CNN;
    • 图像分割:通过Softmax输出“每个像素属于某类别的概率”,实现语义分割(如将图像像素分为“道路”“行人”“车辆”);
  • 推荐系统
    • 协同过滤:用概率矩阵分解(PMF)估计“用户对物品的评分概率”,推荐概率最高的物品;
    • A/B测试:通过假设检验(如两样本比例的Z检验)判断“推荐策略A的点击率是否显著高于策略B”,选择最优策略上线。

8. 概率与统计学核心公式汇总(Summary of Core Formulas)

| 一级类别 | 二级类别 | 公式内容 | 核心用途 | AI应用场景举例 |
| --- | --- | --- | --- | --- | --- | --- |
| 概率基础 | 贝叶斯定理 | $P(A | B) = \frac{P(B | A)P(A)}{P(B)}$ | 从结果反推原因,更新概率信念 | 朴素贝叶斯分类器、贝叶斯神经网络 |
| | 全概率公式 | $P(A) = \sum_{i=1}^n P(B_i)P(A | B_i)\((\)B_i$为样本空间划分) | 分解复杂事件概率,简化计算 | 风险评估中“分场景计算用户违约概率” |
| 概率分布 | 正态分布(PDF) | \(f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | 描述连续型数据的对称分布,自然界最常见 | 模型权重初始化、数据标准化、高斯混合模型 |
| | 二项分布(PMF) | \(P(X=k) = C_n^k p^k(1-p)^{n-k}\) | 描述n次独立伯努利试验的成功次数 | 批量样本的预测准确率统计、点击率统计 |
| 数字特征 | 期望(连续型) | \(E[X] = \int_{-\infty}^{+\infty}xf(x)dx\) | 衡量数据的中心趋势 | 均方误差(MSE)损失设计、强化学习的累积奖励期望 |
| | 方差 | \(Var(X) = E[(X-E[X])^2] = E[X^2]-(E[X])^2\) | 衡量数据的离散程度 | 特征选择(剔除低方差特征)、模型稳定性评估 |
| | 相关系数 | \(\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}\) | 量化两变量的线性关联强度(\([-1,1]\)) | 多重共线性检测、特征冗余分析 |
| 信息论 | 交叉熵 | \(H(p,q) = -\sum_x p(x)\log q(x)\) | 衡量预测分布与真实分布的差异 | 分类任务损失函数(Softmax+交叉熵) |
| | KL散度 | $KL(p | | q) = H(p,q) - H(p) = \sum_x p(x)\log\frac{p(x)}{q(x)}$ | 衡量两分布的不对称差异(非负) | VAE的隐变量分布约束、GAN的分布差异衡量 |
| 统计推断 | 最大似然估计(MLE) | $\hat{\theta}{MLE} = \arg\max\theta \sum_{i=1}^n \log f(x_i | \theta)$ | 用样本概率最大化求解总体参数 | 线性回归、逻辑回归的参数求解 |
| | 均值的95%置信区间 | \(\bar{X} \pm t_{\alpha/2}(n-1)\cdot\frac{s}{\sqrt{n}}\)(小样本、方差未知) | 给出总体均值的可信范围,量化估计不确定性 | 模型准确率的置信区间报告 |
| 大数定律与CLT | 中心极限定理 | \(\bar{X} \approx N(\mu, \frac{\sigma^2}{n})\)(n足够大) | 大样本均值的正态近似,支撑统计推断 | A/B测试的显著性检验、置信区间估计 |

附录:概率与统计学核心符号总结(Symbol Summary)

| 符号 | 写法规范 | 读音 | 核心使用场景 |
| --- | --- | --- | --- | --- | --- |
| \(\Omega\) | 大写希腊字母 | “Omega” | 样本空间(所有可能结果的集合,如抛硬币的 \(\Omega=\{正面, 反面\}\)) |
| \(P(A)\) | 大写P+事件A | “P of A” | 事件A的概率(如 \(P(正面)=0.5\)) |
| \(P(A,B)\) | 大写P+事件A,B | “P of A and B” | 事件A与B的联合概率(如 \(P(特征=高, 标签=猫)\)) |
| $P(A | B)$ | 大写P+条件B | “P of A given B” | 事件B发生时A的条件概率(如 $P(标签=鸟 | 特征=有羽毛)$) |
| \(X\) | 大写英文字母 | “X” | 随机变量(如“样本标签”“像素值”,离散型记为X,连续型常用X/Y/Z) |
| \(P(X=k)\) | P+随机变量=取值 | “P of X equals k” | 离散型随机变量的概率质量函数(PMF,如二项分布的 \(P(X=3)\)) |
| \(f(x)\) | 小写f+变量x | “f of x” | 连续型随机变量的概率密度函数(PDF,如正态分布的 \(f(x)\)) |
| \(E[X]\) | E+中括号+X | “E of X” | 随机变量X的数学期望(均值,如 \(E[X]=\mu\)) |
| \(Var(X)\) | Var+X | “Var of X” | 随机变量X的方差(如 \(Var(X)=\sigma^2\)) |
| \(Cov(X,Y)\) | Cov+X,Y | “Cov of X and Y” | 随机变量X与Y的协方差(衡量线性关联方向) |
| \(\rho_{XY}\) | 小写rho+下标XY | “rho of X Y” | X与Y的相关系数(标准化协方差,取值 \([-1,1]\)) |
| \(H(X)\) | 大写H+X | “H of X” | 随机变量X的香农熵(衡量不确定性,如决策树的节点熵) |
| \(H(p,q)\) | H+分布p,q | “H of p q” | 分布p与q的交叉熵(如分类损失函数 \(H(真实分布, 预测分布)\)) |
| $KL(p | | q)$ | KL+分布p | | q | “KL divergence of p from q” | p相对于q的KL散度(衡量分布差异,如VAE的正则项) |
| \(\bar{X}\) | X上加横线 | “X bar” | 样本均值(如100个测试样本的准确率均值 \(\bar{X}=92\%\)) |
| \(s^2\) | s平方 | “s squared” | 样本方差(如 \(s^2 = \frac{1}{n-1}\sum(X_i-\bar{X})^2\)) |
| \(\mu\) | 小写希腊字母 | “mu” | 总体均值(如全量数据的特征均值 \(\mu\)) |
| \(\sigma^2\) | 小写sigma平方 | “sigma squared” | 总体方差(如正态分布的尺度参数 \(\sigma^2\)) |
| \(\lambda\) | 小写希腊字母 | “lambda” | 1. 泊松分布的发生率(如 \(\lambda=5\));2. 指数分布的速率参数 |
| \(\hat{\theta}\) | theta上加帽子 | “theta hat” | 参数 \(\theta\) 的估计值(如MLE估计的 \(\hat{\theta}_{MLE}\)) |
| \(\sum_{i=1}^n\) | 求和符号 | “sum from i=1 to n” | 离散型求和(如期望的 \(\sum x_k P(X=x_k)\)) |
| \(\int\) | 积分符号 | “integral” | 连续型积分(如期望的 \(\int x f(x)dx\)) |

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948205.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在服务器上直接从百度网盘下载文件

使用bypy bypy 本质上是单线程下载,它获取一个普通的下载链接然后像浏览器一样去下载,下载速度可能很慢。 1.下载bypy conda install bypy2.认证并授权网盘账号 bypy info3.将所需文件转移至目的文件夹下 授权成功后…

25.10.27

25.10.27从今天起 记录一下学习历程... 因为觉得最近很没计划,可能学了两个月有点累了... 但是还远没结束,后面还有更难的任务。 明天: 刷完 bfs 和 PriorityQuery 的题 Redis 八股收尾 快速学微服务 正式戒烟第一天…

251028

251028我分析过三个躁郁症患者,发现他们对自己的了解都很深入,我不知道是了解自己太多会导致躁郁还是躁郁症导致的,两者必有联系

刷题日记—链表—快慢指针的应用

今天刷链表类的题目,碰到了几个快慢指针的题目: 1.删除倒数第k个节点: 题目: 这个题目没有给size,所以无法遍历,这时候就要借助快慢指针. 代码如下: class Solution { public:int kthToLast(ListNode* head, in…

【SHADER系列】(四)UGUI 渐变/平滑遮罩 SoftMask

todo 参考:mob-sakai/SoftMaskForUGUI: Enhance Unity UI (uGUI) with advanced soft-masking features to create more visually appealing effects!

newDay16

1.今天课比较多,晚上主要是把自己东西都收拾了一遍,太乱了 2.明天尽量学学,课也不少 3.这数据库是真连不明白

【ESP32 在线语音】讯飞星火语音识别功能(听写流式API)文档阅读

接口要求 集成语音听写流式API时,需按照以下要求。内容 说明请求协议 ws[s](为提高安全性,强烈推荐wss)请求地址中英文(推荐使用):ws[s]: //iat-api.xfyun.cn/v2/iat中英文:ws[s]: //ws-api.xfyun.cn/v2/iat (上…

[java - wait() 虚假唤醒]

对!while (!isDone) { wait(); } 这个循环的核心作用就是防止“虚假唤醒”,这是多线程编程中一个非常重要的细节。 什么是“虚假唤醒”? Java 中,线程调用 wait() 后可能会在没有被其他线程调用 notify()/notifyAl…

Spring的JDK和CgLib动态代理的区别

什么是动态代理,JDK 动态代理和 CGLIB 代理 区别是什么 1.Spring框架中的动态代理是实现AOP(面向切面编程)的一种关键技术。代理就是通过代理类访问目标类之前,对目标类做增加(前置、后置处理),如日志记录、事务…

Hamiltonian H

\[E = \frac{1}{2}mv^2 \]

透明代理和uups代理,哪个更省gas,为什么

Gas消耗对比:UUPS代理更省gas UUPS代理比透明代理更节省gas,主要原因如下: 1. 代理合约复杂度差异 透明代理:代理合约包含完整的升级逻辑和权限控制 合约体积较大,部署成本高 每次调用都需要进行身份检查UUPS代理…

新学期每日总结(第14天)

今日 相较昨日 学习了控制错误

示性函数引入

Problem 现有一个1到n的排列,$ a_1,a_2,...,a_n $。记 $ X $ 为满足 $ a_i = i $ 的 $ i $ 的个数,求 $ E(X) $ 。准备工作 设随机变量 $ X,Y $ , $ X \in \{ x_1,x_2,...,x_n \} $ , $ Y \in \{ y_1,y_2,...,y_m …

2025.10.27

今天学习了Java连接数据库

go构建streamablehttp mcp服务

package mainimport ("context""fmt""log""os""os/signal""syscall""time""github.com/ThinkInAIXYZ/go-mcp/protocol""githu…

算法分析--分治--2.归并排序

给定一个长度为n的整数数组nums,要求必须使用【归并排序】的方法将该数组升序排序。 1.1 归并排序分:将数组分成多个小数组,直到只有一个元素。 治:自底向上合并小数组(merge)1.2 代码 将 arr [n1+n2] 数组分为两…

Vue2随笔-251027

Vue开发模式 1. html脚本导入vue.js核心包,局部模块改造。 样例: <body><div id="app">{{ msg }}<div v-html="inerH"></div></div> </body> <script s…

Java: Jdk17 异步或同步或并行发邮件

项目结构:所需要的包:<dependencies><!-- JavaMail API --><dependency><groupId>com.sun.mail</groupId><artifactId>javax.mail</artifactId><version>1.6.2<…

《程序员修炼之道:从小工到专家》笔记3

1最重要的原则:DRY - “Dont Repeat Yourself”。 其核心是:“每一项知识都必须在系统内具有单一、明确、权威的表述。” 重复的代码(或文档)是“邪恶”的根源。当你需要在多处修改同一逻辑时,极易出错且效率低下…