**1 Diffusion Transformers with Representation Autoencoders**
**中文标题:** 带有表征自动编码器的扩散 Transformer
**作者机构:** Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie. New York University
**论文地址:** [https://arxiv.org/pdf/2510.11690v1](https://arxiv.org/pdf/2510.11690v1)
**项目地址:** [rae-dit.github.io](https://rae-dit.github.io)
**论文贡献:**
1. **提出表征自动编码器 (RAE) 作为 VAE 的替代方案:** 论文提出了一种新的自动编码器,用预训练的表征编码器(例如 DINO、SigLIP、MAE)与训练过的解码器相结合来替代传统的 VAE,从而生成高质量的重建和语义丰富的潜在空间。
2. **提升扩散 Transformer 在高维潜在空间中的性能:** 论文分析了在高维潜在空间中有效运行扩散 Transformer 的挑战,并提出了理论上和经验上验证的解决方案,包括使扩散 Transformer 的宽度与 RAE 的 token 维度匹配、引入维度相关的噪声调度以及噪声增强的解码器训练。
3. **设计 DiT$^{DH}$ 变体以提高可扩展性:** 论文引入了一种新的 DiT 变体 DiT$^{DH}$,它通过一个轻量级、宽幅的 DDT 头来增强标准 DiT 架构,允许扩散模型在不产生二次计算成本的情况下扩展宽度,从而在更高维度的 RAE 空间中进一步提升了训练效率。
4. **实现最先进的图像生成性能:** 经验证明,RAE-based DiT$^{DH}$ 在 ImageNet 上实现了强大的图像生成结果,在 256×256 分辨率下无引导的 FID 达到 1.51,在 256×256 和 512×512 分辨率下有引导的 FID 达到 1.13,超越了现有最先进的扩散模型。
5. **重新定义自动编码的作用:** 这项工作将自动编码从一种压缩机制重新定义为一种表征基础,从而使扩散 Transformer 的训练更有效率、生成更有效。
