ICIR2025 | CubeDiff:重新利用基于扩散的图像模型来生成360°全景图

CubeDiff是一种使用基于扩散的图像模型生成 360° 全景图的新型框架。通过利用立方体图表示和微调预训练的文本到图像模型,CubeDiff 简化了全景图生成过程,提供了高质量、一致的全景图。

CubeDiff 利用立方体图来表示 360° 全景图,并在一次传递中同时对所有面进行降噪。与其他作品相比,Cubediff 无需考虑失真,因为它在常见的 90° FOV 透视图像上进行操作,因此可以直接利用底层扩散模型的互联网级图像先验。该方法以最小的架构修改实现了最先进的结果,实现了详细的文本控制和出色的视觉保真度。

相关链接

  • 论文:http://arxiv.org/abs/2501.17162v1

  • 主页:https://cubediff.github.io/

论文介绍

论文介绍了一种从文本提示或图像生成 360° 全景图的新方法。该方法利用 3D 生成方面的最新进展,采用多视图扩散模型来联合合成立方体贴图的六个面。与以前依赖于处理等距矩形投影或自回归生成的方法不同,提出的方法将每个面视为标准透视图像,简化了生成过程并支持使用现有的多视图扩散模型。论文证明这些模型可以适应生成高质量的立方体贴图,而无需对应感知注意层。该模型允许细粒度的文本控制,生成高分辨率全景图并远远超出其训练集,同时在质量和数量上都实现了最先进的结果。

方法

CubeDiff 引入了一种使用立方体贴图表示生成高质量 360° 全景图的方法,将全景图分为六个透视图,每个透视图的视野为 90°。立方体贴图表示减轻了等矩形投影的典型扭曲,确保每个面都更接近原始训练数据中使用的透视图像。通过利用预训练的文本到图像扩散模型,CubeDiff 使用膨胀的注意力层对潜在扩散模型 (LDM) 进行微调,实现跨视图一致性,同时保留预训练的注意力权重。

CubeDiff在 128×128×8 潜在空间上运行,根据文本嵌入和单个输入视图对 LDM 进行条件化,使用二进制掩码将干净的条件化潜在数据与嘈杂的目标潜在数据区分开来。同步组规范化确保各个面的颜色均匀,而从立方体贴图的 3D 几何中得出的位置编码则引导空间对齐。立方体贴图边缘的重叠预测通过确保相邻面之间的无缝过渡进一步增强了连贯性。使用标准扩散 L2 损失,在从等距矩形全景图派生的立方体贴图小数据集上仅微调 LDM 的注意层。

结果

全景查看器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/70011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【第3章:卷积神经网络(CNN)——3.5 CIFAR-10图像分类】

嘿,小伙伴们,今天咱们来聊聊一个超级酷炫的话题——卷积神经网络(CNN)及其在CIFAR-10图像分类中的应用。这不仅仅是一个技术话题,更是一场探索人工智能奥秘的旅程。准备好了吗?咱们这就发车! 一、CNN:人工智能的“千里眼” 首先,咱们得知道CNN是啥。CNN,全名Convol…

贪心算法_翻硬币

蓝桥账户中心 依次遍历 不符合条件就反转 题目要干嘛 你就干嘛 #include <bits/stdc.h>#define endl \n using namespace std;int main() {ios::sync_with_stdio(0); cin.tie(0); cout.tie(0); string s; cin >> s;string t; cin >> t;int ret 0;for ( i…

开发去中心化应用(DApp)的完整路径:从0到1的实践指南

一、开发前的战略规划 开发DApp需构建完整的区块链技术栈&#xff0c;涉及智能合约、前端交互、节点通信、钱包集成等模块。开发者需明确以下核心要素&#xff1a; 应用定位&#xff1a;区分金融类&#xff08;DeFi&#xff09;、游戏类&#xff08;GameFi&#xff09;、工具类…

清华大学:DeepSeek 如何赋能职场应用(35 页 PDF)

原来已经分享过清华大学的 DeepSeek&#xff1a;从入门到精通&#xff08;100页PDF&#xff09; 现在又来第二弹&#xff1a;《DeepSeek 如何赋能职场应用&#xff1f;从提示语技巧到多场景应用》 PDF里介绍了 DeepSeek 这一人工智能工具及其在职场中的应用&#xff0c;从基础…

微信小程序登陆鉴权最佳实现

文章目录 一、使用步骤1.创建鉴权组件auth2.app.json中注册全局组件3.页面使用组件4. 读取本地存储的 token 数据&#xff0c;用于判断是否曾登录过5. 检测登录状态&#xff0c;要求未登录时不显示页面中的内容且跳转到登录页面 一、使用步骤 1.创建鉴权组件auth 2.app.json中…

【图像加密解密】空间混沌序列的图像加密解密算法复现(含相关性检验)【Matlab完整源码 2期】

1、说明 本文给出详细完整代码、完整的实验报告和PPT。 环境&#xff1a;MATLAB2019a 复现文献&#xff1a;[1]孙福艳,吕宗旺.Digital image encryption with chaotic map lattices[J].Chinese Physics B,2011,20(04):136-142. 2、部分报告内容 3 部分源码与运行步骤 3.1 部…

微信小程序 - 模版语法

声明和绑定数据 小程序页面中使用的数据均需要在 Page() 方法的 data 对象中进行声明定义 在将数据声明好以后&#xff0c;需要在 WXML 中绑定数据&#xff0c;数据绑定最简单的方式是使用 Mustache 语法&#xff08;双大括号&#xff09;将变量包起来。 在 {{ }} 内部可以做…

后端调试指南

调试后端应用程序通常涉及使用一系列工具和技术,以帮助开发人员识别和解决代码中的错误或性能问题。具体的调试过程和步骤可以根据使用的编程语言、框架、以及部署环境有所不同,但通常可以按以下流程进行: 一、选择合适的调试工具 根据你使用的开发环境和后端技术栈,选择…

在Linux中Redis不支持lua脚本的处理方法

redis安装在IP为x.x.x.x的服务器上 redis安装 第一步&#xff0c;安装前&#xff0c;检测系统是否安装了redis。若安装了redis&#xff0c;则需要删除redis&#xff1b;若没有安装redis&#xff0c;则需要安装2.6版本以上的redis。 # 确保Redis版本支持Lua脚本。从Redis 2.6…

试试DeepSeek写prompt+stable diffusion生成漫画

#deepseek #stable diffusion 模型&#xff1a;dreamshaperXL_v21TurboDPMSDE.safetensors 一、情节拟定 漫画情节由deepseek自编自导&#xff0c;画幅为四张。 Prompt 1: 魔法觉醒 "一个平凡的少年在阁楼发现一本古老的魔法书&#xff0c;书页散发着微弱的蓝光。画…

HTN77A0F:拥有强制脉宽调制的0.7A同步降压降压变换器资料参数

HTN77A0特点 内置1.8Ω/700mΩ高低端功率管&#xff0c;无需外部续流二极管&#xff0c;轻载高效率 宽输入电压范围&#xff1a;5V~130V 输出蕞大持续电流&#xff1a;0.7A 超低静态电流&#xff1a;10uA&#xff1b;3uA关断电流 可接近100%占空比工作 轻载PFM (HTN77A0P), 或强…

nvm下载安装教程(node.js 下载安装教程)

前言 nvm 官网地址&#xff1a;https://nvm.uihtm.com nvm 是一个 node.js 的版本管理工具&#xff0c;相比于仅安装 node.js&#xff0c;我们可以使用 nvm 直接下载或卸载 node.js&#xff0c;可以同时安装多个 node.js 版本&#xff0c;并动态的切换本地环境中的 node.js 环…

无法读取配置节“system.web.extensions”,因为它缺少节声明

无法读取配置节“system.web.extensions”&#xff0c;因为它缺少节声明 在IIS配置.net接口时&#xff0c;报错&#xff1a; 无法读取配置节“system.web.extensions”&#xff0c;因为它缺少节声明 解决办法&#xff1a;打开IIS&#xff0c;右键>>管理网站>>高级…

Notepad++ 中删除所有以 “pdf“ 结尾的行

Notepad 中删除所有以 “pdf” 结尾的行 操作步骤 1.打开文件&#xff1a; 在 Notepad 中打开你需要处理的文本文件。 2.打开查找和替换对话框&#xff1a; 按快捷键 Ctrl F&#xff0c;打开“查找和替换”对话框。 3.启用正则表达式模式&#xff1a; 在对话框的底部&#xf…

阿里 Java 岗个人面经分享(技术三面 + 技术 HR 面):Java 基础 +Spring+JVM+ 并发编程 + 算法 + 缓存

技术一面 20 分钟 1、自我介绍 说了很多遍了&#xff0c;很流畅捡重点介绍完。 2、问我数据结构算法好不好 挺好的&#xff08;其实心还是有点虚&#xff0c;不过最近刷了很多题也只能壮着胆子充胖子了&#xff09; 3、找到单链表的三等分点&#xff0c;如果单链表是有环的…

软件工程-模块化设计

分解&#xff08;decomposition&#xff09; C&#xff08;P1P2&#xff09;> C&#xff08;P1&#xff09;C&#xff08;P2&#xff09; E&#xff08;P1P2&#xff09;> E&#xff08;P1&#xff09;E&#xff08;P2&#xff09; C为问题的复杂程度&#xff0c;E为解…

Windows使用

CMD、PowerShell启动后工作目录为当前路径 资源管理器 地址输入框 中输入 cmd资源管理器&#xff0c;Shift 右键&#xff0c;在此处打开 PowerShell 窗口(S)资源管理器 地址输入框 中输入 wt wt 是 PowerShell 的程序名称依赖 wt 配置&#xff1a;wt -> 设置 -> 配置文…

力扣-二叉树-222 完全二叉树节点的数量

思路1 利用层序遍历所有节点即可 代码1 class Solution { public:int countNodes(TreeNode* root) {if(root nullptr) return 0;queue<TreeNode*> que;que.push(root);int size 0;while(!que.empty()){size que.size();int length que.size();while(length--){Tre…

【大模型】阿里云百炼平台对接DeepSeek-R1大模型使用详解

目录 一、前言 二、DeepSeek简介 2.1 DeepSeek 是什么 2.2 DeepSeek R1特点 2.2.1 DeepSeek-R1创新点 2.3 DeepSeek R1应用场景 2.4 与其他大模型对比 三、阿里云百炼大平台介绍 3.1 阿里云百炼大平台是什么 3.2 阿里云百炼平台主要功能 3.2.1 应用场景 3.3 为什么选…

PyTorch Lightning LightningDataModule 介绍

LightningDataModule 是 PyTorch Lightning 提供的数据模块,用于统一管理数据加载流程(包括数据准备、预处理、拆分、批量加载等)。它的核心作用是将数据处理逻辑与模型解耦,提高代码的可复用性和可读性。 1. LightningDataModule 的作用 ✅ 封装数据预处理:数据下载、清…