AI生成视频检测方法及其相关研究

目录标题

【1】AI-Generated Video Detection via Spatio-Temporal Anomaly Learning
【2】DeCoF: Generated Video Detection via Frame Consistency
- 【2.1】Spatiotemporal Convolutional Neural Networks (STCNN) rely on spatial artifacts
- 【2.2】Capturing Universal Spatial Artifacts is Difficult
【3】DeMamba: AI-Generated Video Detection on Million-Scale Benchmark
【4】GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video
【5】Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features
【6】On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection
【7】What Matters in Detecting AI-Generated Videos like Sora?
【8】Turns Out I’m Not Real: Towards Robust Detection of AI-Generated Videos
【9】Beyond Deepfake Images: Detecting AI-Generated Videos
【10】Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method
Acknowledgments

【1】AI-Generated Video Detection via Spatio-Temporal Anomaly Learning

针对AI生成视频带来的伪造风险，提出了一种基于双分支时空卷积神经网络的检测方法AIGVDet，通过分别建模RGB帧中的空间特征与光流图中的时间特征，有效捕捉生成视频中的异常痕迹，并融合两者结果以提升判别能力。为支持模型训练与评估，构建了大规模生成视频数据集GVD。实验结果表明，该方法在面对未知生成模型与视频压缩等干扰时仍具备良好的泛化性与鲁棒性，具备成为生成视频检测任务稳健基线的潜力。代码和数据集已开源于：https://github.com/multimediaFor/AIGVDet。

AI生成视频和真实视频的光流图

低质量的生成视频可能会在帧中表现出一些异常现象，例如纹理异常和物理规律的违背。而那些肉眼难以分辨的高质量生成视频，则更可能在光流图中表现出时间上的不连续性。上图展示了一些视频帧及其通过RAFT方法估计得到的光流图，其中颜色表示运动方向，明暗表示运动幅度。尽管生成视频帧在视觉上十分逼真，但其光流图相比真实视频更不平滑，轮廓也更加模糊。

AIGVDet

为了捕捉真实视频与生成视频之间的这些差异，我们提出了一种简单而有效的AI生成视频检测模型（AIGVDet）。该模型以RGB帧及其对应的光流图为输入，利用双分支的ResNet50编码器深入挖掘这两种模态中的异常特征。最终，我们构建了一个基于决策级融合的二分类器，有效整合多源信息以提升模型的判别能力。
GVD数据集，涵盖了当前最常见的两类生成模型：文本生成视频（Text-to-Video，T2V）和图像生成视频（Image-to-Video，I2V）。T2V指的是根据文本内容自动生成相应的视频，而I2V则指根据带有描述信息的图像，或仅根据图像生成视频。

Robustness evaluation

评估了模型在面对视频压缩这一现实场景中最常见后处理操作时的鲁棒性。CRF是控制H.264压缩质量的参数，我们测试了CRF为0、18、23和28的压缩等级（其中0表示无压缩）。对于生成视频和真实视频，我们均进行了重新压缩处理。随着压缩程度的增加，AUC和ACC有所下降。然而，对于各个检测模型的准确率（ACC）均维持在80%以上，AUC也始终保持在88%以上。

【2】DeCoF: Generated Video Detection via Frame Consistency

构建了一个包含964条提示、涵盖多种生成模型（包括Sora与Veo）的公开数据集GVF，提出了一种基于帧一致性的检测方法DeCoF。该方法通过消除空间伪影干扰，专注于捕捉时间伪影，具备良好的泛化性和鲁棒性，在多个未知和闭源商用生成模型上均表现优异。相关代码和数据集将开放于：https://github.com/wuwuwuyue/DeCoF。
伪影（Artifact）是指在图像或视频中出现的非自然、不真实的痕迹或失真，通常是由于压缩、处理或生成算法造成的。伪影本质上是一种“异常”，会背离自然图像或视频的规律。
空间伪影（Spatial Artifacts）：出现在单帧图像中，如模糊、边缘不连续、纹理异常、块状失真（blockiness）等。
时间伪影（Temporal Artifacts）：出现在连续帧之间，表现为时间维度的不一致，如：
• 运动不连续：物体移动时突然“跳动”或变形。
• 光流不稳定：连续帧之间的光流场变化异常、不平滑。
• 帧间不一致：前后帧中物体的纹理、位置或状态不协调。

生成视频中空间伪影与时间伪影

空间伪影包括：(a) 几何外观错误，(b) 图像布局错误，（c）频率不一致，(d) 颜色不匹配；
时间伪影为：(e) 帧与帧之间的不一致。

【2.1】Spatiotemporal Convolutional Neural Networks (STCNN) rely on spatial artifacts

为了分析 STCNN 网络在训练过程中到底学习了哪些信息，或者说它在区分真实与伪造视频时依赖了哪些特征，我们设计了两个新的探测实验，并在相同的模型框架下构建了两个新数据集进行测试。
第一个数据集将当前测试集中所有真实视频的帧顺序打乱，破坏视频的时间连续性，以观察模型是否可以仅通过时间不连续性来进行区分。
第二个数据集则从当前测试集中的伪造视频中随机选取一帧，并将该帧复制多次，生成一个只有单帧内容的视频，用于观察模型是否可以仅依赖空间伪影进行区分。

上表中的实验结果表明，STCNN过于依赖空间伪影，从而将生成视频检测问题退化为一个二维问题。然而，仅凭 STCNN 对空间伪影的依赖仍无法解释其在面对未见过的生成模型时缺乏泛化能力的原因。

【2.2】Capturing Universal Spatial Artifacts is Difficult

将当前用于生成图像检测的方法转化为图像级检测器，并用于检测生成视频，在 GVF 数据集上进行测试。这些检测器在识别特定生成模型的空间伪影方面表现出色，但同样缺乏对未见生成模型的泛化能力。

t-SNE可视化图，四种视频生成模型相关的真实视频帧与伪造视频帧的分布情况

真实视频帧与由不同视频生成模型生成的伪造视频帧的平均频谱对比图

研究发现，虽然现有检测器能够有效识别由已见生成模型产生的视频，原因在于其成功捕捉到了特定模型的空间伪影，但这些伪影在不同生成模型之间缺乏一致性，导致检测器难以泛化至未见模型。通过对不同子数据集的特征分布进行可视化分析，以及对生成视频帧的频谱进行对比，实验进一步验证了不同模型所引入的空间伪影差异显著，因而构建具备普适性的空间特征检测器极具挑战。

DeCoF

我们首先使用预训练的 CLIP:VIT 提取真实视频和生成视频的特征，以消除空间伪影对时间伪影捕捉的影响。随后，利用一个由两个 Transformer 层和一个 MLP 头组成的验证模块，学习真实视频与伪造视频在帧一致性上的差异。
在实际检测场景中，检测器对未见过的扰动的鲁棒性同样至关重要。在这里，我们主要关注两种扰动对检测器的影响：高斯模糊和JPEG压缩。高斯模糊在三个级别（σ = 1, 2, 3）下添加，JPEG压缩在五个级别（质量 = 90, 80, 70, 60, 50）下添加。

【3】DeMamba: AI-Generated Video Detection on Million-Scale Benchmark

针对缺乏高质量数据集的问题，作者提出了首个百万级大规模 AI 生成视频检测数据集 GenVideo，并设计了两个评估任务衡量检测器的泛化能力与鲁棒性。
• 跨生成器分类任务：评估训练后的检测器在面对不同生成器时的泛化能力；
• 退化视频分类任务：评估检测器在面对传播过程中质量下降的视频时的鲁棒性。
此外，作者还提出了一个即插即用的增强模块——Detail Mamba（DeMamba），该模块通过分析视频在时间和空间维度上的不一致性来识别 AI 生成视频，代码与数据集将开放于：https://github.com/chenhaoxing/DeMamba。

GenVideo数据集中真实视频和生成视频的统计数据

Detail Mamba

该方法包括特征编码器、DeMamba模块和MLP分类头。首先，使用最先进的视觉编码器（如CLIP和XCLIP）对视频帧进行编码，生成特征序列。
然后，通过DeMamba模块对这些特征进行空间整合和时空一致性建模。该模块通过连续扫描策略有效捕捉视频帧之间的复杂时空关系。
最后，聚合全局和局部特征，结合MLP进行视频的真伪分类。该模型通过二元交叉熵损失进行训练，旨在提高检测AI生成视频的准确性和鲁棒性。
由于生成方法迭代迅速，我们提出了跨数据集泛化任务，用于测试检测器的泛化能力。具体来说，该任务包括两种类型：1）多对多泛化任务；2）一对多泛化任务。
多对多泛化任务指在10个基准类别上进行训练，然后在各个子集及ood上的平均检测性能进行测试。
一对多泛化任务参考了AI生成图像检测的相关设定，与多对多不同，它是在一个基准类别上训练，并在各个子集及ood上测试泛化性能。
ood（Out-Of-Distribution），在训练数据分布之外的视频子集，即模型在训练时未见过的视频类型或生成方式，用于测试模型的泛化能力。
研究了八种不同类型扰动对检测器的影响，包括：H.264压缩、JPEG压缩、翻转（FLIP）、裁剪（Crop）、文字水印、图像水印、高斯噪声和颜色变换。

【4】GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video

在这里插入图片描述

GenVidBench是一个面向 AI 生成视频检测任务的大规模、高质量数据集，具备跨来源、跨生成器、涵盖多种先进视频生成模型以及丰富语义分类等特点，旨在提升检测模型的泛化能力和鲁棒性，并为研究者开发和评估生成视频检测方法提供标准基准和实验支持。
GenVidBench数据集不仅包含真实与伪造视频的标签，还提供丰富的语义内容标签，例如物体类比、场景位置和动作行为等

上表是GenVidBench 数据集中真实与生成视频的统计信息。GenVidBench 包含由8种先进生成器生成的8个伪造视频子集以及2个真实视频子集。视频对是根据生成来源（如文本提示或图像）进行划分的。
GVD 和 GenVideo 是之前的两个重要数据集，但它们有一些局限性，比如缺乏原始的生成提示、图像、视频对、语义标签和跨来源设置。这意味着这些数据集在训练集和测试集内容相似时，无法有效区分不同场景的问题。
GVF 尝试解决这些问题，提供了提示、图像、视频对和语义标签，但由于数据集规模较小（仅2.8k个视频），它仍然面临规模不足的问题。同时，它也没有跨来源设置，这使得它在多样性和挑战性方面有所欠缺。
GenVidBench 是一种改进的数据集，规模达到100,000个视频，涵盖了语义标签和用于生成视频的提示/图像，并进行了跨来源设置，从而使其在假视频检测方面更具挑战性。
“跨来源设置”（Cross-source setting）指的是在数据集的训练集和测试集中，使用来自不同来源（例如，不同的视频生成模型、不同的输入数据或不同的生成环境）的数据。这种设置的目的是增加数据的多样性，并减少模型在训练时可能学习到的偏差，使其能够更好地适应不同来源的视频生成，从而提高检测器的泛化能力。简单来说，跨来源设置增加了数据集的多样性和复杂性，是一种为了提升AI生成视频检测器性能而采用的策略。
“视频对”（Video pairs）指的是一对相关的两段视频，通常用于比较和分析。在生成视频检测的上下文中，视频对通常由以下两种类型组成：
1. 真实视频与生成视频对：一个视频来自真实世界，而另一个视频则是由AI生成模型生成的。这对视频可以用来进行真假视频的对比，帮助检测器识别和区分AI生成的视频和真实视频。
2. 相同提示的生成视频对：对于生成视频，可能会使用相同的输入提示或条件生成不同的视频。这种情况下，视频对中的两个视频来自相同的生成模型，但它们是基于相同的输入生成的，可以用来分析不同生成模型或不同生成参数下，AI生成的视频之间的差异。
3. 在检测任务中，视频对的使用有助于训练模型识别两个视频之间的异同，特别是在对比真假视频时，可以通过直接比较它们的内容、特征、风格等来提高检测的精度。

【5】Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features

在这里插入图片描述

DuB3D 架构概览：上方分支表示外观建模组件，从原始视频内容中提取时空特征；下方分支表示运动建模组件，从光流中提取运动特征。
上方分支处理连续的 N 帧图像，下方分支则使用间隔为 K 帧的视频帧对来计算光流作为输入。
在网络中，“3DSwin” 指的是 Video Swin Transformer 的阶段模块。

【6】On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection

提出了一种创新算法，称为多模态检测（MM-Det），用于检测扩散生成的视频。MM-Det 利用大规模多模态模型（LMMs）深层次的感知能力和综合理解能力，通过在其多模态空间中生成多模态伪造表示（MMFR），提升其对未知伪造内容的检测能力。此外，MM-Det 还引入了一种帧内与跨帧注意力机制（IAFA），用于时空域中的特征增强；并通过动态融合策略优化伪造特征的融合表现。我们还构建了一个涵盖多种伪造视频的综合性扩散视频数据集，称为Diffusion Video Forensics（DVF）。
多模态检测网络（MM-Det）的架构。给定一个输入视频，大规模多模态模型（LMM）分支接收视频帧和提示语，生成多模态伪造表示（MMFR）。从视觉编码器和大语言模型中提取的隐藏状态组成了 MMFR，用于捕捉不同扩散生成视频中的伪造痕迹。
在时空（ST）分支中，视频首先通过 VQ-VAE 进行重构，放大扩散伪造中的细节差异，随后输入至 CNN 编码器，并经过“帧内与帧间注意力机制”（IAFA）模块。IAFA 用于提取基于空间伪影和时间不一致性的特征。
最后，采用动态融合策略将两种特征结合，用于最终的伪造检测判断。
为了分析我们方法的鲁棒性，我们基于常见的后处理操作对 MM-Det 进行了额外的评估。我们选择了高斯模糊（σ = 3）、JPEG 压缩（质量 Q = 90）、缩放（比例为 0.7）、旋转（角度为 90°）以及上述所有操作的组合，作为现实场景中未见的扰动。测试样本从 DVF 数据集中选取，共包含 500 个真实视频和 500 个伪造视频。如表 S3 所示，MM-Det 在这些操作下的性能下降介于 0.9%（JPEG 压缩）到 5.8%（高斯模糊）之间，所有结果均高于 86%。这表明我们的方法在这些干扰下依然具有良好的有效性。

【7】What Matters in Detecting AI-Generated Videos like Sora?

在本研究中，从三个基本维度出发——外观、运动和几何，探讨了这一差距，并将真实视频与当前最先进的 AI 模型 Stable Video Diffusion 所生成的视频进行比较。为此，我们利用三维卷积网络训练了三个分类器，分别针对外观（使用视觉基础模型特征）、运动（使用光流信息）和几何结构（使用单目深度信息）进行伪造检测。每个分类器在定性和定量上均表现出出色的伪造视频识别能力，这表明当前的 AI 生成视频仍易被识别，真实与伪造视频之间依然存在显著差距。
此外，我们通过 Grad-CAM（能够在输入图像上高亮显示模型关注的区域，也就是说，它告诉我们模型是“看着”图像的哪个部分来判断某一类别的） 技术进一步定位了 AI 生成视频在外观、运动和几何层面上的系统性缺陷。最后，我们提出了一种专家集成模型（Ensemble-of-Experts），融合了外观、光流和深度信息以提升伪造视频检测的鲁棒性与泛化能力。该模型甚至能够高精度地检测由 Sora 生成的视频，即便在训练阶段从未见过任何 Sora 的样本。这表明，真实与伪造视频之间的差距具有一定的普适性，可推广到不同的视频生成模型中。
Ensembled Experts模型的整体框架概览。每个CVR分类器都会独立评估输入视频的真实性。各个分类器生成的logits被集成，用于构建最终的专家集成模型。
Logits是指神经网络输出层在激活函数（如 softmax）之前的原始输出值，通常是一个实数向量，表示每个类别的“未归一化置信度”。

【8】Turns Out I’m Not Real: Towards Robust Detection of AI-Generated Videos

在这里插入图片描述

与以往仅利用DIRE值训练CNN检测器的先进方法不同，DIVID同时利用RGB帧和DIRE值，结合简单的CNN+LSTM架构，能够捕捉视频中的时间信息，并从多个视频帧中提取显式知识。
扩散重建误差（DIRE），这是一种通过扩散模型对图像进行重建后，与原图之间的差异来衡量的误差，用于辅助检测图像或视频的真实性。
与扩散生成图像相比，真实图像的DIRE值通常更大。

【9】Beyond Deepfake Images: Detecting AI-Generated Videos

本文展示了合成图像检测器无法可靠检测AI生成的视频，并证明这一问题并非由H.264压缩带来的降级效应所致。
我们发现合成视频生成器留下的取证痕迹与合成图像生成器显著不同，导致图像检测器在视频检测中表现不佳。
同时，我们展示了合成视频的取证痕迹可以被学习，并在H.264再压缩的情况下实现可靠的视频检测和生成源归属。尽管通过零样本迁移检测新生成器的视频具有挑战性，但少量样本学习能准确检测新生成器的视频。此外，本文创建了一个公开的合成视频数据集，可用于训练和评估合成视频检测器的性能。

【10】Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method

基于对生成视频中时间缺陷的分析，我们提出了一个新颖的检测框架，综合考虑局部运动信息与全局外观变化。同时，设计了基于通道注意力的特征融合模块，能够自适应地结合局部与全局时间线索，以揭示伪造视频。
首先训练一个仅使用真实视频的帧预测模型，以学习真实视频中的正常运动规律。随后，在检测阶段，该模型用于预测视频帧之间的运动变化，并将预测误差作为衡量视频局部运动异常的依据。由于真实视频在时间上具有较强的连续性，其预测误差通常较小，而伪造视频的误差相对较大。为了增强特征的稳定性和泛化能力，研究者还设计了一个时间聚合机制，对误差序列进行整合，减弱复杂时空内容的干扰。最终，这些聚合后的运动特征被送入编码器，提取用于检测的视频局部运动信息。
采用 BEiT v2 作为预训练的视觉特征提取器，它基于掩码图像建模框架，并通过向量量化蒸馏降低了视觉特征对图像细节变化的敏感性，同时保留高级语义信息。因此，全局外观变化的特征学习过程可表示为：输入帧的视觉特征依时间顺序输入至可训练的时间 Transformer 模型中，从而获取表示全局外观变化的特征表示。
基于通道注意力（Channel Attention, CA）的特征融合模块，用于融合局部运动特征与全局外观特征。
鲁棒性评估：在视频中进行 比特错误（Bit Error） 操作，通常是指在视频的二进制数据中人为地引入随机的比特翻转，以模拟传输过程中由于信道噪声或硬件错误造成的数据破坏。这是模拟网络传输错误或存储介质损坏的一种常见方式。

Acknowledgments

I would like to express my sincere gratitude to the authors of the cited works for their valuable contributions to this field. Their research laid the foundation for this review, and their insights greatly enriched the discussion.