Paper: Diffusion Transformers with Representation Autoencoders

news/2025/10/25 15:35:05/文章来源:https://www.cnblogs.com/hai-tang/p/19165455

**1 Diffusion Transformers with Representation Autoencoders**

**中文标题:** 带有表征自动编码器的扩散 Transformer

**作者机构:** Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie. New York University

**论文地址:** [https://arxiv.org/pdf/2510.11690v1](https://arxiv.org/pdf/2510.11690v1)

**项目地址:** [rae-dit.github.io](https://rae-dit.github.io)

**论文贡献:**

1. **提出表征自动编码器 (RAE) 作为 VAE 的替代方案:** 论文提出了一种新的自动编码器,用预训练的表征编码器(例如 DINO、SigLIP、MAE)与训练过的解码器相结合来替代传统的 VAE,从而生成高质量的重建和语义丰富的潜在空间。
2. **提升扩散 Transformer 在高维潜在空间中的性能:** 论文分析了在高维潜在空间中有效运行扩散 Transformer 的挑战,并提出了理论上和经验上验证的解决方案,包括使扩散 Transformer 的宽度与 RAE 的 token 维度匹配、引入维度相关的噪声调度以及噪声增强的解码器训练。
3. **设计 DiT$^{DH}$ 变体以提高可扩展性:** 论文引入了一种新的 DiT 变体 DiT$^{DH}$,它通过一个轻量级、宽幅的 DDT 头来增强标准 DiT 架构,允许扩散模型在不产生二次计算成本的情况下扩展宽度,从而在更高维度的 RAE 空间中进一步提升了训练效率。
4. **实现最先进的图像生成性能:** 经验证明,RAE-based DiT$^{DH}$ 在 ImageNet 上实现了强大的图像生成结果,在 256×256 分辨率下无引导的 FID 达到 1.51,在 256×256 和 512×512 分辨率下有引导的 FID 达到 1.13,超越了现有最先进的扩散模型。
5. **重新定义自动编码的作用:** 这项工作将自动编码从一种压缩机制重新定义为一种表征基础,从而使扩散 Transformer 的训练更有效率、生成更有效。

image

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946193.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年模板加固源头厂家最新推荐榜:优质企业权威测评出炉,含高精 / 剪力墙等多类型模板加固品牌

引言 在建筑工程质量与效率要求不断提升的当下,模板加固产品的选择对工程安全、成本控制至关重要。为帮助行业筛选优质源头厂家,中国建筑金属结构协会联合建筑模板脚手架专业委员会开展 2025 年度模板加固品牌测评,…

102302155张怡旋数据采集第一次作业

作业一 核心代码与运行结果大体思路:在写代码之前我先进入了该网页查看源代码的信息,了解了html的结构分布等,再进行代码的编写。代码首先用requests发送 GET 请求,添加User-Agent模拟浏览器,避免反爬拦截;接着检…

序列异或求贡献

序列异或求贡献是一类常见的题目,经典做法无非是求前后缀,按进制位拆贡献累计答案,但是需要对具体问题具体分析。 异或和之和 设前缀异或和为 \(sum_i\)(\(sum_0\)=0),对 \(sum_i\) 二进制拆位。\(tot1_k\) 为二…

深入解析:Java外功精要(2)——Spring IoCDI

深入解析:Java外功精要(2)——Spring IoC&DIpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas",…

2025年矩形橡胶支座源头厂家权威推荐榜单:GJZ矩形橡胶支座/圆形橡胶桥梁支座/桥梁橡胶支座源头厂家精选

在交通基础设施建设持续发展的背景下,矩形橡胶支座作为桥梁结构的关键传力部件,其质量直接关系到整体工程的安全性与耐久性。 矩形橡胶支座主要由多层薄钢板与橡胶片叠合而成,通过钢板约束橡胶的横向变形,从而显著…

2025年永磁同步变频器加工厂权威推荐榜单:高压变频柜装置/通用矢量变频器/高压变频器源头厂家精选

随着工业自动化程度不断提升,永磁同步变频器凭借其高效节能特性,正成为电机控制领域的重要技术方向。 永磁同步变频器市场在2025年预计将保持12.5%的年增长率,其中高压变频器在矿山、冶金等重工业领域需求尤为旺盛,…

首批CCF教学案例大赛资源上线:涵盖控制仿真、算法与机器人等9大方向 - 教程

首批CCF教学案例大赛资源上线:涵盖控制仿真、算法与机器人等9大方向 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fami…

HT-PBR-0006SMG:20W 连续、3 相位失衡,一颗贴片省掉整块匹配网络

HT-PBR-0006SMG:20W 连续、3 相位失衡,一颗贴片省掉整块匹配网络HT-PBR-0006SMG 的出场像一场静悄悄的革命,它把 0.5 到 6 GHz 的广阔频域折叠进一枚仅几毫米见方的陶瓷体,却把“功率”二字写进了名字。很多人第一…

2025年人字纹机织布源头厂家权威推荐榜单:700g机织布/锦纶工业用布/800g机织布源头厂家精选

人字纹机织布行业概况与技术特性 人字纹机织布作为工业用纺织品的重要组成部分,因其独特的斜纹编织结构和优异的力学性能,在工业生产中占据重要地位。根据行业数据分析,2025年全球人字纹机织布市场规模预计将达到85…

双模更超模!飞利浦双模办公娱乐显示器27E2N5900RW优雅登场! - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Day4无序,有序和定义列表

无序列表,在实际应用中,无序列表应用的最为广泛<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><meta name="viewport" content="w…

技术管理

参考:技术管理实战 36 讲 https://learn.lianglianglee.com/%E4%B8%93%E6%A0%8F/%E6%8A%80%E6%9C%AF%E7%AE%A1%E7%90%86%E5%AE%9E%E6%88%98%2036%20%E8%AE%B2技术到管理岗位的角色转换:从优秀骨干到优秀管理者 https…

威胁狩猎平台升级:全新认证机制与功能增强

abuse.ch宣布平台重大升级,包括全新认证系统、误报数据集、URLhaus狩猎功能增强、YARAify文件自动删除功能,以及面向贡献者的专属Slack频道,旨在提升威胁狩猎效率与平台稳定性。社区优先:全新认证机制、新增数据与…

SpringMVC 启动与请求处理流程解析 - Higurashi

基于:SpringMVC 启动与请求处理流程解析什么是 DispatcherServlet? SpringMVC 基于 Servlet,DispatcherServlet 是 SpringMVC 的核心组件,本身是一个 Servlet,负责请求的分发,其继承关系如下: GenericServlet (…

精读C++20设计模式——结构型设计模式:享元模式 - 实践

精读C++20设计模式——结构型设计模式:享元模式 - 实践2025-10-25 15:07 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; …

Java 企业 AI 转型选什么?JBoltAI 框架:20 + 大模型 + 向量数据库,AI 应用超灵活

Java 企业 AI 转型选什么?JBoltAI 框架:20 + 大模型 + 向量数据库,AI 应用超灵活不少 Java 企业在 AI 转型时,都会陷入类似的困境:技术团队熟悉 SpringBoot、MySQL 等传统栈,面对大模型调用、向量数据库适配却无…

20232401 2025-2026-1 《网络与系统攻防技术》实验三实验报告

20232401 2025-2026-1 《网络与系统攻防技术》实验三实验报告 1.实验内容1.1 了解恶意软件检测机制,学习免杀原理 1.2 熟悉msfvenom的使用,使用msfvenom中的编码器并尝试生成多种类型的文件 1.3 学习使用veil工具的使…

JBoltAI:企业级 Java AI 应用开发框架

Java 系统 AI 化难?JBoltAI 框架:智能表单 + 报表分析,AI 应用功能全易维护在企业 IT 体系里,Java 系统就像 “老基建”—— 支撑着请假报销、采购入库、数据报表等核心业务,但提到 “AI 化改造”,多数 Java 团队…

2025 年破胶机厂家最新推荐排行榜:聚焦 610/710/810 型及大型自动低温环保设备,精选优质企业

引言 当前废旧橡胶回收行业规模持续扩大,破胶机作为核心加工设备,其质量与性能直接决定企业生产效率与产品竞争力。但市场上设备厂商数量繁杂,部分产品存在能耗高、自动化水平低、售后响应慢等问题,导致企业选购时…