MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构

news/2025/9/20 20:48:23/文章来源:https://www.cnblogs.com/deephub/p/19102831

现在的文生图模型已经十分强大了,例如我们在输入框敲下 “a photorealistic astronaut riding a horse on the moon”,几秒钟后屏幕生成从未出现过的图像,细节丰富,几近完美。扩散模型(diffusion models)推动了这一切,早已将旧方法远远甩在身后。主流观点认为,这一成功依赖于像 U-Net 这类高度专门化的神经网络架构,以及它们内置的“归纳偏置”。但也许“魔法”并不在引擎,而在燃料:数据。

来自 MIT 与丰田研究院(Toyota Research Institute, TRI)的论文《Locality in Image Diffusion Models Emerges from Data Statistics(图像扩散模型中的局部性源自数据统计)》对这一说法提出挑战。作者给出证据表明,扩散模型一个被反复强调的属性——关注局部像素关系——并不需要依赖架构的巧妙设计,它可以从训练图像的统计规律中自然涌现。

“我们给出证据表明,深度扩散模型中的局部性,是图像数据集的统计属性所促成的,而不是卷积神经网络的归纳偏置所致。”

这意味着:模型并没有“发明”新的视觉范式,更像是把自然图像中最显而易见的统计模式学到了极致。下面我们详细说说这篇论文

我们以为的扩散模型工作

从清晰图像出发,逐步加噪直至完全随机;训练一个模型去逆转这个过程,逐步去噪,生成新图像。长期以来,U-Net 被视为是这里的主力,它承担“去噪器”的核心职责。我们也通常把它的“超能力”归因于架构:

  • 局部性(Locality):卷积层像滑动的放大镜,以重叠小块处理图像,默认相邻像素的相关性更强。
  • 平移等变(Shift Equivariance):同一只猫,放在左上角或右下角仍是猫。输入平移,表示随之平移,理解保持一致。

这些归纳偏置常被认为是模型在复杂视觉世界里“少走弯路”的关键。

“完美”的去噪器

扩散框架里存在一个理论上的“最优去噪器”。给定带噪声的图像,它能返回最可能的原始图像。但它对生成新图像没什么用,因为它是一个近乎完美的抄写者:在训练集中检索最近邻,然后再吐回去。它不会泛化、不懂组合与迁移,更像搜索引擎而不是生成模型者。你的数据里有猫和狗,它就能给你猫或狗,却永远想不出“狗猫”这个不存在的动物。

image

 


图 1,摘自论文。右侧的“最优”去噪器只是从记忆(训练集)里寻找最近的图像。深度去噪器会生成一个合理且新颖的图像。研究者试图解释的正是这两者之间的差距。

 

https://avoid.overfit.cn/post/2de292b28a1c45a7859df94069855581

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/908537.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:光学神经网络与人工智能应用

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Zabbix 企业级监控架构实战指南:从搭建、可视化到智能告警

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于MATLAB的视频动态目标跟踪检测搭建方案

基于MATLAB的视频动态目标跟踪检测搭建方案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

第三篇:Windows10/11软件集成与系统优化 - 教程

第三篇:Windows10/11软件集成与系统优化 - 教程2025-09-20 20:21 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display…

U522155 数据生成(小心电脑)

// code by 樓影沫瞬_Hz17 #include <bits/stdc++.h> using namespace std;#define getc() getchar_unlocked() #define putc(a) putchar_unlocked(a) #define en_ putc(\n) #define e_ putc( )using pii = pair…

Windows-Appx

Windows-Appx导航 (返回顶部)1. PS_modules 2. Appx 3. Get-AppxPackage3.1 Syntax 语法 3.2 Description 描述 3.3 Examples 3.4 Parameters 参数4. Remove-AppxPackage4.1 Syntax 4.2 Description 4.3 Parameters5. …

实用指南:OSG中osgFX库

实用指南:OSG中osgFX库pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &qu…

2025.9.20——1橙

终于结束初赛,可以好好写写编程题了。 普及- P10108 [GESP202312 六级] 闯关游戏 很简单的一道dp题,但我因为没考虑到答案可能是负数,卡了好几次。

CSP 2025 游记

前言 被迫报了 J 组,不好评价。 初赛 J 组 上午坐大巴在车上睡着了,然后正好在考点门口被颠醒了…… 提前半个小时到了考点,又在桌子上趴了一会,不过没睡着。两个监考老师左右脑互搏,至今不知道准考证号前四位要填…

配置Spring框架以连接SQL Server数据库

Spring框架是一个开源的企业级应用框架,用于简化Java开发工作,通过依赖注入(DI)和面向切面编程(AOP)等核心功能支持程序的健壮性和易维护性。要配置Spring框架以连接SQL Server数据库,需要遵循几个关键步骤,从…

这一辈子大多数日子是无聊的

本文纯属个人观点,搏您一笑,请勿上升至道德高度今天晚上去食堂吃饭的路上拍下了这张照片(图一):密密麻麻的不知道什么植物,如同校园里的学生一样多,它们占领了照片的下部。岸边的树、教学楼,乃至于远方的天空,天…

Elasticsearch面试精讲 Day 11:索引模板与动态映射 - 指南

Elasticsearch面试精讲 Day 11:索引模板与动态映射 - 指南2025-09-20 19:44 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importan…

Go 实现验证码识别

步骤 1:安装 Go 语言 首先,确保你的系统已经安装了 Go 语言。如果没有安装,可以从 Go 官网 下载并安装。 安装后,验证是否成功: 更多内容访问ttocr.com或联系1436423940 go version 步骤 2:安装 Tesseract OCR 我…

跳出 AI 编程的「兔子洞」,4 个实战策略帮你解决90%的死循环

在和 AI 协作编程的时候,你肯定遇到过这样一种情况: 使用 Claude Code 或者 Codex 信心满满的实现一个功能之后,结果你一运行,直接报错。 于是你把错误信息直接复制粘贴回给 AI,它态度好的一笔,立马道歉:非常抱…

用 PHP 和 Tesseract OCR 识别英文数字验证码

验证码是网页中常见的防止自动化攻击的工具,通常它们由一串字母和数字组成,目的是确认用户是人类而不是机器人。很多情况下,验证码都是扭曲、加噪音的图像,这让计算机很难直接读取。幸运的是,借助 OCR(Optical C…

凝望深渊时,深渊也凝望着你(黑洞与摇钱树)

/dev/null与/dev/zero在 Linux 系统中,/dev/null 和 /dev/zero 是两个特殊的设备文件,由内核提供,用于特定的数据处理目的。 /dev/null 是“只进不出”的黑洞,用于丢弃数据。 /dev/zero 是“只出不进”的零源,用于…

详细介绍:《Vuejs设计与实现》第 16 章(解析器) 中

详细介绍:《Vuejs设计与实现》第 16 章(解析器) 中pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&qu…

spring项目部署后为什么会生成 logback-spring.xml记录

spring项目部署后为什么会生成 logback-spring.xml记录pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&q…

React+antd搭建监听localStorage变化多页面更新+纯js单页面table模糊、精确查询、添加、展示功能

React+antd搭建监听localStorage变化多页面更新+纯js单页面table模糊、精确查询、添加、展示功能2025-09-20 19:22 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !im…