MIT新论文：数据即上限，扩散模型的关键能力来自图像统计规律，而非复杂架构

news/2025/9/20 20:48:23/文章来源:https://www.cnblogs.com/deephub/p/19102831

现在的文生图模型已经十分强大了，例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”，几秒钟后屏幕生成从未出现过的图像，细节丰富，几近完美。扩散模型（diffusion models）推动了这一切，早已将旧方法远远甩在身后。主流观点认为，这一成功依赖于像 U-Net 这类高度专门化的神经网络架构，以及它们内置的“归纳偏置”。但也许“魔法”并不在引擎，而在燃料：数据。

来自 MIT 与丰田研究院（Toyota Research Institute, TRI）的论文《Locality in Image Diffusion Models Emerges from Data Statistics（图像扩散模型中的局部性源自数据统计）》对这一说法提出挑战。作者给出证据表明，扩散模型一个被反复强调的属性——关注局部像素关系——并不需要依赖架构的巧妙设计，它可以从训练图像的统计规律中自然涌现。

“我们给出证据表明，深度扩散模型中的局部性，是图像数据集的统计属性所促成的，而不是卷积神经网络的归纳偏置所致。”

这意味着：模型并没有“发明”新的视觉范式，更像是把自然图像中最显而易见的统计模式学到了极致。下面我们详细说说这篇论文

我们以为的扩散模型工作

从清晰图像出发，逐步加噪直至完全随机；训练一个模型去逆转这个过程，逐步去噪，生成新图像。长期以来，U-Net 被视为是这里的主力，它承担“去噪器”的核心职责。我们也通常把它的“超能力”归因于架构：

局部性（Locality）：卷积层像滑动的放大镜，以重叠小块处理图像，默认相邻像素的相关性更强。
平移等变（Shift Equivariance）：同一只猫，放在左上角或右下角仍是猫。输入平移，表示随之平移，理解保持一致。

这些归纳偏置常被认为是模型在复杂视觉世界里“少走弯路”的关键。

“完美”的去噪器

扩散框架里存在一个理论上的“最优去噪器”。给定带噪声的图像，它能返回最可能的原始图像。但它对生成新图像没什么用，因为它是一个近乎完美的抄写者：在训练集中检索最近邻，然后再吐回去。它不会泛化、不懂组合与迁移，更像搜索引擎而不是生成模型者。你的数据里有猫和狗，它就能给你猫或狗，却永远想不出“狗猫”这个不存在的动物。