详细介绍：Qwen2.5-VL 损失函数

文章名称	链接
深入理解交叉熵损失 CrossEntropyLoss - 概率基础	链接
深入理解交叉熵损失 CrossEntropyLoss - 对数	链接
深入理解交叉熵损失 CrossEntropyLoss - 概率分布	链接
深入理解交叉熵损失 CrossEntropyLoss - 信息论（交叉熵）	链接
深入理解交叉熵损失 CrossEntropyLoss - 损失函数	链接
深入理解交叉熵损失 CrossEntropyLoss - one-hot 编码	链接
深入理解交叉熵损失 CrossEntropyLoss - Softmax	链接
深入理解交叉熵损失 CrossEntropyLoss - 归一化	链接
深入理解交叉熵损失 CrossEntropyLoss - nn.LogSoftmax	链接
深入理解交叉熵损失 CrossEntropyLoss - 似然	链接
深入理解交叉熵损失 CrossEntropyLoss - 乘积符号在似然函数中的应用	链接
深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计	链接
深入理解交叉熵损失 CrossEntropyLoss - nn.NLLLoss（Negative Log-Likelihood Loss）	链接
深入理解交叉熵损失 CrossEntropyLoss - CrossEntropyLoss	链接

qwen2_5_vl/modular_qwen2_5_vl.py
qwen2_5_vl/modeling_qwen2_5_vl.py
文件的forward方法中使用了CrossEntropyLoss

loss = None
if labels is
not None:
# Upcast to float if we need to compute the loss to avoid potential precision issues
logits = logits.float(
)
# Shift so that tokens < n predict n
shift_logits = logits[...
, :-1
, :].contiguous(
)
shift_labels = labels[...
, 1:].contiguous(
)
# Flatten the tokens
loss_fct = CrossEntropyLoss(
)
shift_logits = shift_logits.view(-1
, self.config.vocab_size)
shift_labels = shift_labels.view(-1
)
# Enable model parallelism
shift_labels = shift_labels.to(shift_logits.device)
loss = loss_fct(shift_logits, shift_labels)
if
not return_dict:
output = (logits,
) + outputs[1:]
return (loss,
) + output if loss is
not None
else output

loss_fct(shift_logits, shift_labels)

import torch
from torch.nn import CrossEntropyLoss
# 假设词汇表大小为10
vocab_size = 10
# 假设总样本数为5
N = 5
# 生成随机的logits和labels
shift_logits = torch.randn(N, vocab_size)
shift_labels = torch.randint(0
, vocab_size, (N,
)
)
# 创建CrossEntropyLoss实例
loss_fct = CrossEntropyLoss(
)
# 计算损失
loss = loss_fct(shift_logits, shift_labels)
print(f"Loss: {
loss.item(
)
}"
)

shift_logits 是模型的原始输出得分，shift_labels 是样本的真实标签，loss_fct(shift_logits, shift_labels) 会计算出这些样本的交叉熵损失。

代码中使用了CrossEntropyLoss类来计算损失，在 PyTorch 中，CrossEntropyLoss结合了LogSoftmax和NLLLoss（负对数似然损失）。LogSoftmax操作会对模型的输出logits应用 Softmax 函数，将其转换为概率分布，然后再取对数；NLLLoss则基于这个对数概率分布和真实标签计算损失。因此，CrossEntropyLoss本质上实现的是 Softmax 交叉熵。

多分类场景的体现：shift_logits被调整为形状(-1, self.config.vocab_size)，其中self.config.vocab_size表示词汇表的大小，这意味着模型的输出是一个多分类的概率分布，每个类别对应词汇表中的一个词。

简单的说

1. 基础概念：熵、交叉熵与KL散度

1.1 信息熵（Entropy）

信息熵是随机变量的不确定性度量，对于离散概率分布 $P (x)$ ，其公式为 $-\sum_{i} P(x_i) \log P(x_i)$ 。直观来看，熵越高意味着分布越“均匀”，不确定性越大——例如掷骰子结果的熵高于抛硬币，因为骰子的可能结果更多且分布更均匀，其不确定性更强。

1.2 交叉熵（Cross-Entropy）

交叉熵用于衡量用分布 $Q$ 表示分布 $P$ 的困难程度，公式为 $-\sum_{i} P(x_i) \log Q(x_i)$ 。交叉熵越小，说明 $Q$ 与 $P$ 的差异越小，即 $Q$ 越接近真实分布 $P$ ，因此常被用作衡量两个分布相似性的指标。

1.3 KL散度（Kullback-Leibler Divergence）

KL散度是对两个概率分布差异的量化度量，公式为 $D_{KL}(P||Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$ ，其与交叉熵、信息熵的关系为 $H(P, Q) = H(P) + D_{KL}(P||Q)$ ，即交叉熵等于信息熵与KL散度之和。当真实分布 $P$ 固定时，最小化交叉熵等价于最小化KL散度，目标是让预测分布 $Q$ 尽可能接近 $P$ 。

2. 交叉熵损失在分类任务中的应用

2.1 二分类问题

在二分类场景中，模型需要预测样本属于0或1类的概率，通常通过sigmoid函数将输出映射到[0, 1]区间，得到概率 $\hat{y}$ 。二元交叉熵（BCE）损失函数为 $-\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i) \right]$ ：当真实标签 $y_i=1$ 时，损失为 $-\log(\hat{y}_i)$ ，鼓励 $\hat{y}_i$ 接近1；当 $y_i=0$ 时，损失为 $-\log(1-\hat{y}_i)$ ，鼓励 $\hat{y}_i$ 接近0。

2.2 多分类问题

多分类任务中，样本需被预测为 $C$ 个类别之一，模型通过softmax函数将输出转换为概率分布 $\hat{y}_1, \dots, \hat{y}_C$ （满足 $\sum_{i=1}^{C} \hat{y}_i = 1$ ），损失函数为多类交叉熵 $-\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c})$ ，其中 $y_{i,c}$ 是one-hot标签（样本 $i$ 属于类别 $c$ 时为1，否则为0），该公式本质是对每个样本的真实类别对应的预测概率取负对数并求平均。

3. 交叉熵损失与最大似然估计

3.1 从最大似然到交叉熵

假设训练数据 $x_i, y_i)$ 独立同分布，模型预测为条件概率 $\theta)$ ，对数似然函数为 $\log \mathcal{L}(\theta) = \sum_{i=1}^{N} \log P(y_i|x_i; \theta)$ ，最小化负对数似然（NLL）即 $-\frac{1}{N} \sum_{i=1}^{N} \log P(y_i|x_i; \theta)$ 等价于最大化似然。对于分类问题，若 $P(y_i|x_i; \theta)$ 是softmax分布，则NLL损失恰好对应交叉熵损失。

3.2 为什么用交叉熵而非MSE？

从梯度特性看，交叉熵在预测错误时梯度较大，能加速收敛；而MSE在预测值远离真实值时梯度较小，可能导致训练缓慢。从概率解释角度，交叉熵直接优化似然函数，与概率模型的训练目标一致，而MSE更适用于回归任务，不直接关联概率分布的拟合。

4. 交叉熵损失在语言模型中的应用

4.1 自回归语言模型

自回归语言模型的任务是根据前文 $x_1, \dots, x_{t-1}$ 预测下一个token $x_t$ 的概率分布，损失函数为对序列每个位置 $t$ 计算交叉熵 $-\frac{1}{T} \sum_{t=1}^{T} \log P(x_t | x_1, \dots, x_{t-1})$ 。以PyTorch为例，假设模型输出logits为 [batch_size, seq_len, vocab_size]，真实标签为 [batch_size, seq_len]，可通过 nn.CrossEntropyLoss() 计算损失：loss = loss_fct(logits.view(-1, vocab_size), labels.view(-1))，其中函数会自动对logits应用softmax并计算交叉熵。

4.2 与分类任务的联系

语言模型中每个token位置的预测可视为独立的分类问题，词汇表大小即类别数，模型需在每个位置预测当前token属于词汇表中某个词的概率。因此，语言模型的训练本质是对序列中每个位置的“分类器”进行联合优化，与多分类任务的核心逻辑一致，只是序列场景下需要考虑上下文依赖关系。

交叉熵损失和交叉熵区别

1. 区别

交叉熵（信息论概念）是衡量两个概率分布差异的指标，数学定义为 $-\sum_{i} P(x_i) \log Q(x_i)$ ，其中 $P$ 是真实分布， $Q$ 是预测分布，核心作用是衡量用分布 $Q$ 表示分布 $P$ 的“不匹配程度”，不匹配程度越低，交叉熵越小。而交叉熵损失（机器学习损失函数）是交叉熵在模型训练中的具体应用，本质上是对样本的交叉熵求平均，用于量化模型预测与真实标签的差距，作为优化目标，例如在分类任务中，其表达式为 $-\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log \hat{y}_{i,c}$ ，其中 $N$ 是样本数， $C$ 是类别数， $y_{i,c}$ 是样本 $i$ 的one-hot标签， $\hat{y}_{i,c}$ 是模型预测的概率。