人工智能十大数学知识 - 信息论 - 何苦

news/2025/10/28 0:47:04/文章来源:https://www.cnblogs.com/fuqian/p/19170511

人工智能十大数学知识 - 信息论

信息论(Information Theory)在人工智能中的核心应用

信息论是量化“信息不确定性”与“分布差异”的数学工具,为AI模型的损失设计(如交叉熵)、特征选择(如互信息)、生成式模型(如VAE/GAN)提供核心理论支撑。

1. 熵(Entropy)—— 不确定性的度量

熵是随机变量“不确定性”的量化指标:不确定性越大,熵值越高;确定事件的熵为0。

1.1 定义与公式

离散型随机变量的熵(香农熵)

  • 公式:设离散随机变量 \(X\) 的取值为 \(x_1,x_2,\dots,x_n\),概率分布为 \(P(X=x_i)=p_i\)(满足 \(\sum_{i=1}^n p_i=1\)),则熵为:
    \(H(X) = -\sum_{i=1}^n p_i \log_b p_i\)
    常用底数 \(b=2\)(单位:比特,bit)或 \(b=e\)(单位:奈特,nat),实际应用中底数不影响“相对不确定性”的对比。
  • 关键示例
    1. 确定事件:若 \(p_1=1\)、其余 \(p_i=0\),则 \(H(X)=-1\cdot\log 1 - \sum_{i\neq1}0\cdot\log 0=0\)(无不确定性);
    2. 均匀分布:若 \(n\) 个取值概率均为 \(\frac{1}{n}\),则 \(H(X)=\log n\)(不确定性最大),如抛均匀硬币(\(n=2\))的熵 \(H(X)=1\ \text{bit}\)

连续型随机变量的熵(微分熵)

  • 公式:设连续随机变量 \(X\) 的概率密度函数为 \(p(x)\),则微分熵为:
    \(H(X) = -\int_{-\infty}^{+\infty} p(x) \log_b p(x) dx\)
  • 注意:微分熵可正可负(与离散熵“非负”的性质不同),仅用于相对不确定性对比,不代表“绝对信息量”。
  • 关键示例:正态分布 \(X\sim N(\mu,\sigma^2)\) 的微分熵为 \(H(X)=\frac{1}{2}\log(2\pi e \sigma^2)\)——方差 \(\sigma^2\) 越大,微分熵越高,数据分布越分散(不确定性越强)。

1.2 核心性质

  1. 非负性:离散型随机变量的熵 \(H(X)\geq0\),仅当 \(X\) 以概率1取某一值时,\(H(X)=0\)
  2. 对称性:熵仅与概率分布相关,与变量取值的具体含义无关(如“标签1/2”与“标签A/B”的熵相同,只要分布一致);
  3. 扩展性:增加概率为0的取值,熵不变(如给“抛硬币”增加“正面朝上且反面朝上”的不可能事件,熵仍为1 bit)。

1.3 AI中的应用

  • 生成模型的分布匹配:VAE/GAN中,通过最小化“生成数据与真实数据的微分熵差异”,让生成数据的分布更贴近真实分布;
  • 决策树的节点纯度:熵越小,节点样本的类别越集中(纯度越高),是ID3算法的核心分裂依据。

2. 联合熵(Joint Entropy)—— 多变量的总不确定性

联合熵 \(H(X,Y)\) 衡量“两个随机变量 \(X\)\(Y\) 联合分布的总不确定性”,是条件熵与互信息的基础。

2.1 定义与公式

  • 公式(离散型):设 \(X\)\(Y\) 的联合概率为 \(P(X=x_i,Y=y_j)=p_{ij}\)\(\sum_{i=1}^n\sum_{j=1}^m p_{ij}=1\)),则联合熵为:
    \(H(X,Y) = -\sum_{i=1}^n \sum_{j=1}^m p_{ij} \log_b p_{ij}\)
  • 公式(连续型):设联合概率密度为 \(p(x,y)\),则联合熵为:
    \(H(X,Y) = -\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} p(x,y) \log_b p(x,y) dxdy\)

2.2 关键性质

  • 最大值:当 \(X\)\(Y\) 完全独立时,\(H(X,Y)=H(X)+H(Y)\)(总不确定性等于单个变量不确定性之和);
  • 最小值:当一个变量完全由另一个变量决定时(如 \(Y=X\)),\(H(X,Y)=\max(H(X),H(Y))\)(总不确定性等于单个变量的不确定性)。

2.3 AI中的应用

  • 多标签分类的复杂度评估:若 \(X\) 为“图像场景标签”、\(Y\) 为“物体标签”,联合熵 \(H(X,Y)\) 越大,说明标签组合越分散,分类难度越高;
  • 多模态数据对齐:通过最小化“图像特征 \(X\) 与文本特征 \(Y\) 的联合熵”,实现跨模态数据的语义一致性(如CLIP模型的图文对齐)。

3. 条件熵(Conditional Entropy)—— 已知信息后的剩余不确定性

条件熵 \(H(Y|X)\) 表示“已知随机变量 \(X\) 的取值后,随机变量 \(Y\) 仍存在的不确定性”,即“信息 \(X\) 未消除的 \(Y\) 的不确定性”。

3.1 定义与公式

离散型条件熵

  • 公式:设 \(X\)\(Y\) 的联合概率为 \(p_{ij}\)\(X\) 的边缘概率为 \(P(X=x_i)=p_i=\sum_{j=1}^m p_{ij}\),则:
    \(H(Y|X) = -\sum_{i=1}^n \sum_{j=1}^m p_{ij} \log_b P(Y=y_j|X=x_i)\)
    其中 \(P(Y=y_j|X=x_i)=\frac{p_{ij}}{p_i}\) 为条件概率。
  • 链式法则(核心推导):联合熵、熵与条件熵满足 \(H(X,Y) = H(X) + H(Y|X)\),变形可得:
    \(H(Y|X) = H(X,Y) - H(X)\)
    (含义:总不确定性 - \(X\) 的不确定性 = 已知 \(X\)\(Y\) 的剩余不确定性)

连续型条件熵

  • 公式:设联合密度为 \(p(x,y)\)\(X\) 的边缘密度为 \(p(x)\),则:
    \(H(Y|X) = -\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} p(x,y) \log_b p(y|x) dxdy\)
    链式法则同样成立:\(H(Y|X) = H(X,Y) - H(X)\)

3.2 关键解读

  • \(X\)\(Y\) 的预测能力强(如 \(X\)\(Y\) 的标签特征),则 \(H(Y|X)\) 小(已知 \(X\) 后,\(Y\) 的不确定性大幅降低);
  • 极端情况:若 \(Y\) 完全由 \(X\) 决定(如 \(Y=X\)),则 \(H(Y|X)=0\)(已知 \(X\) 即可确定 \(Y\),无剩余不确定性)。

3.3 AI中的应用

  • 决策树的分裂准则:C4.5算法通过“最小化分裂后子节点的条件熵 \(H(Y|X)\)”(\(X\) 为分裂特征,\(Y\) 为样本标签),选择“最能降低类别不确定性”的特征;
  • 特征有效性评估:条件熵 \(H(标签|特征)\) 越小,说明该特征对标签的预测能力越强,可优先保留。

4. 互信息(Mutual Information)—— 变量相关性的量化

互信息 \(I(X;Y)\) 衡量“两个随机变量 \(X\)\(Y\) 的关联强度”:互信息越大,关联越强;互信息为0时,\(X\)\(Y\) 完全独立(无任何关联)。

4.1 定义与公式

离散型变量的互信息

  • 公式:设 \(X\)\(Y\) 的联合概率为 \(p_{ij}\),边缘概率为 \(p_i=P(X=x_i)\)\(q_j=P(Y=y_j)\),则:
    \(I(X;Y) = \sum_{i=1}^n \sum_{j=1}^m p_{ij} \log_b \frac{p_{ij}}{p_i q_j}\)
  • 等价推导(核心):结合熵与条件熵,互信息可简化为:
    \(I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)\)
    (含义:\(X\) 的不确定性 - 已知 \(Y\)\(X\) 的剩余不确定性 = \(X\)\(Y\) 的共享信息)

连续型变量的互信息

  • 公式:设联合密度为 \(p(x,y)\),边缘密度为 \(p(x)\)\(p(y)\),则:
    \(I(X;Y) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} p(x,y) \log_b \frac{p(x,y)}{p(x) p(y)} dxdy\)
    等价推导同样成立:\(I(X;Y) = H(X) - H(X|Y)\)

4.2 核心性质

  1. 对称性\(I(X;Y) = I(Y;X)\)\(X\)\(Y\) 的关联强度与 \(Y\)\(X\) 相同);
  2. 非负性\(I(X;Y) \geq 0\)(关联强度不会为负);
  3. 独立性\(I(X;Y) = 0\) 当且仅当 \(X\)\(Y\) 完全独立(\(p_{ij}=p_i q_j\))。

4.3 AI中的核心应用

  • 特征选择:计算“每个特征 \(X\) 与标签 \(Y\) 的互信息”,保留互信息大的特征(如文本分类中,筛选与“垃圾邮件标签”关联强的关键词);
  • 自监督学习:MoCo、SimCLR等对比学习模型,通过最大化“样本局部特征 \(X\) 与全局特征 \(Y\) 的互信息”,让模型学习鲁棒的表征;
  • 多模态对齐:CLIP模型通过最大化“图像特征 \(X\) 与文本特征 \(Y\) 的互信息”,实现跨模态数据的语义匹配。

5. 相对熵(KL散度)—— 分布差异的“非对称度量”

KL散度(Kullback-Leibler Divergence)量化“真实分布 \(P\) 与近似分布 \(Q\) 的差异”:KL散度非负,仅当 \(P=Q\) 时为0;且不满足对称性(\(D_{KL}(P||Q) \neq D_{KL}(Q||P)\))。

5.1 定义与公式

离散型分布的KL散度

  • 公式:设真实分布 \(P\) 的概率为 \(p_i\),近似分布 \(Q\) 的概率为 \(q_i\),则:
    \(D_{KL}(P \parallel Q) = \sum_{i=1}^n p_i \log_b \frac{p_i}{q_i}\)
  • 核心推导:结合交叉熵 \(H(P,Q)\) 与真实分布熵 \(H(P)\),KL散度可表示为:
    \(D_{KL}(P \parallel Q) = H(P,Q) - H(P)\)
    (含义:用 \(Q\) 近似 \(P\) 时,“交叉熵”比“真实熵”多的部分,即“额外的不确定性损失”)

连续型分布的KL散度

  • 公式:设真实密度为 \(p(x)\),近似密度为 \(q(x)\),则:
    \(D_{KL}(P \parallel Q) = \int_{-\infty}^{+\infty} p(x) \log_b \frac{p(x)}{q(x)} dx\)
  • 常用简化:若 \(P \sim N(\mu_1,\sigma_1^2)\)\(Q \sim N(\mu_2,\sigma_2^2)\)(两个正态分布),KL散度可简化为:
    \(D_{KL}(P \parallel Q) = \log \frac{\sigma_2}{\sigma_1} + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} - \frac{1}{2}\)
    (仅与均值差、方差比相关,无需积分,计算高效)

5.2 核心性质

  1. 非负性\(D_{KL}(P \parallel Q) \geq 0\),仅当 \(P=Q\) 时取0;
  2. 非对称性\(D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)\)(以 \(P\) 为基准衡量 \(Q\) 的偏差,与反向偏差不同);
  3. 凸性:KL散度是关于 \(P\)\(Q\) 的凸函数,优化时易找到全局最优。

5.3 AI中的核心应用

  • VAE的正则化:变分自编码器中,通过最小化“隐变量后验分布 \(q(z|x)\) 与先验分布 \(p(z)\)(如标准正态分布)”的KL散度,确保隐变量分布可控,避免生成样本模式崩溃;
  • 主题模型(LDA):通过最小化“文档-主题分布、主题-词分布”与真实分布的KL散度,学习最优主题结构;
  • 强化学习的策略更新:PPO算法通过限制“新策略分布与旧策略分布”的KL散度,确保策略更新平稳,避免训练震荡。

6. 交叉熵(Cross-Entropy)—— 分布差异的“损失度量”

交叉熵 \(H(P,Q)\) 衡量“用近似分布 \(Q\) 编码真实分布 \(P\) 所需的平均信息量”:交叉熵越小,\(Q\)\(P\) 越接近,是AI分类任务中最核心的损失函数。

6.1 定义与公式

离散型分布的交叉熵

  • 公式:设真实分布 \(P\) 的概率为 \(p_i\),近似分布 \(Q\) 的概率为 \(q_i\),则:
    \(H(P,Q) = -\sum_{i=1}^n p_i \log_b q_i\)
  • 关键解读
    1. \(Q=P\) 时,\(H(P,Q)=H(P)\)(交叉熵等于真实分布的熵,编码效率最高);
    2. \(Q\)\(P\) 偏差越大(如真实 \(p_1=1\),预测 \(q_1=0.1\)),交叉熵越大(编码代价越高)。

连续型分布的交叉熵

  • 公式:设真实密度为 \(p(x)\),近似密度为 \(q(x)\),则:
    \(H(P,Q) = -\int_{-\infty}^{+\infty} p(x) \log_b q(x) dx\)
  • 注意:连续型交叉熵需结合KL散度使用(单独计算无绝对意义),主要用于生成模型的损失设计。

6.2 AI中的核心应用(分类任务损失)

二分类任务(如垃圾邮件检测)

  • 模型输出:通过Sigmoid函数得到预测概率 \(\hat{y} = P(Y=1|X)\)\(Y=1\) 为正类,\(Y=0\) 为负类);
  • 交叉熵损失:\(L = -\frac{1}{N} \sum_{i=1}^N \left[ y_i \log \hat{y}_i + (1-y_i) \log (1-\hat{y}_i) \right]\)
    其中 \(y_i\) 为真实标签(0或1),\(N\) 为样本数。

多分类任务(如ImageNet图像分类)

  • 模型输出:通过Softmax函数得到每个类的预测概率 \(\hat{y}_{i,c} = P(Y=c|X=x_i)\)\(c=1,2,\dots,C\) 为类别);
  • 交叉熵损失:\(L = -\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{i,c} \log \hat{y}_{i,c}\)
    其中 \(y_{i,c}\) 为真实标签的One-Hot编码(仅真实类别为1,其余为0)。

7. 关键定理与原理

7.1 信息不等式(Information Inequality)

  • 核心结论:对任意两个分布 \(P\)\(Q\)\(D_{KL}(P \parallel Q) \geq 0\),仅当 \(P=Q\) 时取0;
  • 推论:互信息 \(I(X;Y) \geq 0\),仅当 \(X\)\(Y\) 完全独立时取0(由 \(I(X;Y)=D_{KL}(P(X,Y) \parallel P(X)P(Y))\) 推导)。

7.2 数据处理不等式(Data Processing Inequality)

  • 核心结论:若 \(X \to Y \to Z\) 形成马尔可夫链(\(Z\) 仅依赖 \(Y\),与 \(X\) 无直接关联),则:
    \(I(X;Z) \leq I(X;Y)\)\(I(X;Z) \leq I(Y;Z)\)
  • 含义:数据处理(如特征转换、压缩)不会增加信息量,仅可能保留或减少信息(如对图像进行下采样,会损失部分细节信息)。

7.3 最大熵原理(Maximum Entropy Principle)

  • 核心思想:在满足已知约束(如特征期望)的前提下,选择“熵最大的分布”——即“最不确定的分布”,避免引入额外假设(偏见);
  • AI应用
    • 最大熵模型(MaxEnt):文本分类中,通过最大化条件熵 \(H(Y|X)\)(满足特征期望约束),避免模型偏向高频词;
    • 语言模型:用最大熵估计词的概率分布,减少语料偏差导致的概率失真。

8. 信息论在AI中的典型应用场景

应用领域 核心技术 信息论工具 具体作用
机器学习 特征选择 互信息 \(I(X;Y)\) 筛选与标签关联强的特征,减少冗余
深度学习 分类任务损失 交叉熵 \(H(P,Q)\) 衡量预测分布与真实分布的差异,指导模型参数更新
生成模型 VAE/GAN KL散度、交叉熵 约束生成分布与真实分布的差异,避免模式崩溃
自监督学习 对比学习(MoCo/SimCLR) 互信息 \(I(X;Y)\) 最大化局部与全局特征的关联,学习鲁棒表征
自然语言处理 语言模型评估 困惑度(\(PP=2^{H(P,Q)}\) 困惑度越低,语言模型对文本的预测能力越强
强化学习 最大熵强化学习 熵 $H(\pi(\cdot s))$
模型压缩 知识蒸馏 KL散度、交叉熵 让学生模型模仿教师模型的输出分布,保留核心知识
异常检测 分布差异检测 KL散度、交叉熵 衡量测试样本与正常样本的分布差异,差异大则判定为异常

附录:信息论核心符号总结(读音+使用场景)

符号 写法规范 读音 核心使用场景
\(H(X)\) 大写H+括号内变量X “aitch of X” 离散/连续随机变量X的熵,衡量X的不确定性(如决策树节点纯度)
\(H(X,Y)\) 大写H+括号内变量X,Y “aitch of X Y” X与Y的联合熵,衡量两个变量的总不确定性(如多标签分类复杂度)
\(H(Y|X)\) 大写H+括号内Y|X “aitch of Y given X” 已知X时Y的条件熵,衡量剩余不确定性(如决策树分裂准则)
\(I(X;Y)\) 大写I+括号内X;Y “eye of X semicolon Y” X与Y的互信息,衡量变量关联强度(如特征选择、多模态对齐)
\(D_{KL}(P \parallel Q)\) 大写D下标KL+括号内PQ “D K L of P parallel Q” P 与 Q 的 KL 散度,非对称衡量分布差异(如 VAE 正则化、策略更新约束)
\(H(P,Q)\) 大写H+括号内P,Q “aitch of P Q” P与Q的交叉熵,衡量分布差异(如分类任务损失函数)
\(p(x)\) 小写p+括号内x “p of x” 连续随机变量X的概率密度函数(如正态分布密度)
\(p_{ij}\) 小写p下标ij “p sub i j” 离散变量X=x_i、Y=y_j的联合概率(如互信息、联合熵计算)
\(p(y|x)\) 小写p+括号内y|x “p of y given x” 已知X=x时Y=y的条件概率密度/质量(如条件熵、贝叶斯定理)
\(\log_b\) 对数符号+下标b “log base b” 底数为b的对数(b=2时为比特,b=e时为奈特,AI中常用b=e简化计算)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能十大数学知识 - 概率与统计学 - 何苦

人工智能十大数学知识 - 概率与统计学人工智能中的概率与统计学核心知识(Probability and Statistics for AI)概率与统计学是AI量化不确定性、从数据中学习规律的核心工具——从模型参数估计(如线性回归权重)到生成…

在服务器上直接从百度网盘下载文件

使用bypy bypy 本质上是单线程下载,它获取一个普通的下载链接然后像浏览器一样去下载,下载速度可能很慢。 1.下载bypy conda install bypy2.认证并授权网盘账号 bypy info3.将所需文件转移至目的文件夹下 授权成功后…

25.10.27

25.10.27从今天起 记录一下学习历程... 因为觉得最近很没计划,可能学了两个月有点累了... 但是还远没结束,后面还有更难的任务。 明天: 刷完 bfs 和 PriorityQuery 的题 Redis 八股收尾 快速学微服务 正式戒烟第一天…

251028

251028我分析过三个躁郁症患者,发现他们对自己的了解都很深入,我不知道是了解自己太多会导致躁郁还是躁郁症导致的,两者必有联系

刷题日记—链表—快慢指针的应用

今天刷链表类的题目,碰到了几个快慢指针的题目: 1.删除倒数第k个节点: 题目: 这个题目没有给size,所以无法遍历,这时候就要借助快慢指针. 代码如下: class Solution { public:int kthToLast(ListNode* head, in…

【SHADER系列】(四)UGUI 渐变/平滑遮罩 SoftMask

todo 参考:mob-sakai/SoftMaskForUGUI: Enhance Unity UI (uGUI) with advanced soft-masking features to create more visually appealing effects!

newDay16

1.今天课比较多,晚上主要是把自己东西都收拾了一遍,太乱了 2.明天尽量学学,课也不少 3.这数据库是真连不明白

【ESP32 在线语音】讯飞星火语音识别功能(听写流式API)文档阅读

接口要求 集成语音听写流式API时,需按照以下要求。内容 说明请求协议 ws[s](为提高安全性,强烈推荐wss)请求地址中英文(推荐使用):ws[s]: //iat-api.xfyun.cn/v2/iat中英文:ws[s]: //ws-api.xfyun.cn/v2/iat (上…

[java - wait() 虚假唤醒]

对!while (!isDone) { wait(); } 这个循环的核心作用就是防止“虚假唤醒”,这是多线程编程中一个非常重要的细节。 什么是“虚假唤醒”? Java 中,线程调用 wait() 后可能会在没有被其他线程调用 notify()/notifyAl…

Spring的JDK和CgLib动态代理的区别

什么是动态代理,JDK 动态代理和 CGLIB 代理 区别是什么 1.Spring框架中的动态代理是实现AOP(面向切面编程)的一种关键技术。代理就是通过代理类访问目标类之前,对目标类做增加(前置、后置处理),如日志记录、事务…

Hamiltonian H

\[E = \frac{1}{2}mv^2 \]

透明代理和uups代理,哪个更省gas,为什么

Gas消耗对比:UUPS代理更省gas UUPS代理比透明代理更节省gas,主要原因如下: 1. 代理合约复杂度差异 透明代理:代理合约包含完整的升级逻辑和权限控制 合约体积较大,部署成本高 每次调用都需要进行身份检查UUPS代理…

新学期每日总结(第14天)

今日 相较昨日 学习了控制错误

示性函数引入

Problem 现有一个1到n的排列,$ a_1,a_2,...,a_n $。记 $ X $ 为满足 $ a_i = i $ 的 $ i $ 的个数,求 $ E(X) $ 。准备工作 设随机变量 $ X,Y $ , $ X \in \{ x_1,x_2,...,x_n \} $ , $ Y \in \{ y_1,y_2,...,y_m …

2025.10.27

今天学习了Java连接数据库

go构建streamablehttp mcp服务

package mainimport ("context""fmt""log""os""os/signal""syscall""time""github.com/ThinkInAIXYZ/go-mcp/protocol""githu…

算法分析--分治--2.归并排序

给定一个长度为n的整数数组nums,要求必须使用【归并排序】的方法将该数组升序排序。 1.1 归并排序分:将数组分成多个小数组,直到只有一个元素。 治:自底向上合并小数组(merge)1.2 代码 将 arr [n1+n2] 数组分为两…

Vue2随笔-251027

Vue开发模式 1. html脚本导入vue.js核心包,局部模块改造。 样例: <body><div id="app">{{ msg }}<div v-html="inerH"></div></div> </body> <script s…

Java: Jdk17 异步或同步或并行发邮件

项目结构:所需要的包:<dependencies><!-- JavaMail API --><dependency><groupId>com.sun.mail</groupId><artifactId>javax.mail</artifactId><version>1.6.2<…