详细介绍:SkyDiffusion:用 BEV 视角打开街景→航拍图像合成新范式

news/2025/11/8 14:52:42/文章来源:https://www.cnblogs.com/gccbuaa/p/19202299

Junyan Ye、Jun He、Weijia Li 等中山大学与上海人工智能实验室的研究者提出SkyDiffusion,首次将“曲面 BEV 视角变换 + 多图融合”与“条件扩散模型”结合,构建无需相机参数、无需文本或语义图的纯街景→高分辨率航拍图像合成,在灾难响应、无人机低空影像和历史遥感补洞三大场景均刷新 SOTA,并开源了囊括 2 万张跨视角图像的Ground2Aerial-3数据集与完整代码。


0. 快速导航

  1. 研究背景:跨视角合成的痛点
  2. SkyDiffusion 框架一览
  3. Curved-BEV:让街景“抬头”看高楼
  4. BEV-Controlled Diffusion:用鸟瞰 latent 控制航拍生成
  5. Ground2Aerial-3 信息集:灾难、无人机、历史影像三大任务
  6. 实验结果:SOTA 全面超越
  7. 消融与可视化
  8. 结论与展望
  9. 代码与数据

1. 研究背景:跨视角合成的痛点

地对空图像合成侧重于从相应的地面街景图像生成逼真的航空图像,同时保持一致的内容布局,模拟自上而下的视图。显着的视点差异导致视图之间的域间隙,密集的城市场景限制了街景的可见范围,使得这种交叉视图生成任务特别具有挑战性。

场景街景(Street View)航拍(Aerial / Satellite)核心难点
视野水平≤ 120°俯视≈ 90°几何域差异巨大
遮挡高楼、树冠屋顶为主单张街景看不见“屋顶”
用途导航、AR灾害评估、城市规划要求内容一致+逼真

在这里插入图片描述

(a) 跨视图领域差异的挑战;(b) 密集场景中遮挡的挑战;© 将我们的地面到空中图像合成方法与现有的跨视图合成方法进行比较。

总结:给定一张或几张街景,如何合成同位置、同内容、高分辨率的航拍图?
现有方法要么语义对不齐(GAN),要么需要额外文本或语义图(Diffusion),且普遍忽略密集城区遮挡问题。


2. SkyDiffusion 框架一览

SkyDiffusion,是一种利用扩散模型和鸟瞰图(BEV)范式从街景图像合成航空图像的新型交叉视图生成方法。SkyDiffusion 中的 Curved-BEV 方式将街景图像转换为 BEV 视角,实用弥合了域差距,并采用“multi-to-one”映射策略来解决密集城市场景中的遮挡问题。
在这里插入图片描述

两大创新点

  1. Curved-BEV:无相机参数、无深度估计,把“向上弯曲”的 BEV 面投射到球面全景,远距离高楼也能映射
  2. Multi-to-One BEV:多张街景→统一航拍坐标系,扩大可见范围,解决遮挡。

3. Curved-BEV:让街景抬头看高楼

3.1 几何建模

传统 BEV 假设地面平面 z=0,导致建筑上层信息全部丢失
作者将 BEV 面改为向上弯曲的四次曲面
z = ( x 2 + y 2 d max ⁡ ) 4 ⋅ λ z = \left(\frac{\sqrt{x^2+y^2}}{d_{\max}}\right)^4 \cdot \lambdaz=(dmaxx2+y2)4λ

3.2 Multi-to-One 融合

给定 N 张街景,按相机位置偏移 (Δx,Δy) 把各自 BEV 投到统一航拍格网;重叠区取最近相机像素
k ∗ = arg ⁡ min ⁡ i ( x − x c a m i ) 2 + ( y − y c a m i ) 2 k^* = \arg\min_i \sqrt{(x-x_{\mathrm{cam}_i})^2 + (y-y_{\mathrm{cam}_i})^2}k=argimin(xxcami)2+(yycami)2
效果:在 VIGOR-Chicago 上,BEV 感知半径从~50 m 扩展到>150 m。


4. BEV-Controlled Diffusion:用鸟瞰 latent 控制航拍生成

4.1 条件注入架构

  • 轻量 BEV Encoder:4 块卷积+Spatial Attention,抑制曲面扭曲误差
  • 零卷积注入:复制 Stable Diffusion v1.5 的 Encoder&Middle Block,权重锁预训练,只训练零卷积与 BEV 编码器
  • Classifier-Free Guidance:训练时 10% 丢弃 BEV 条件,推理阶段 guidance scale=9

4.2 训练目标

L = E x 0 , t , c b e v , ε [ ∥ ε − ε θ ( x t , t , c b e v ) ∥ 2 2 ] L = \mathbb{E}_{x_0,t,c_{\mathrm{bev}},\varepsilon} \big[\|\varepsilon - \varepsilon_\theta(x_t,t,c_{\mathrm{bev}})\|_2^2\big]L=Ex0,t,cbev,ε[εεθ(xt,t,cbev)22]


5. Ground2Aerial-3 数据集:灾难、无人机、历史影像三大任务

子集场景数量分辨率独特价值
Disaster飓风 Ian(2022)破坏区2.7 k0.3 m快速灾情评估
UAVMatrixCity 虚拟城4.3 k0.05 m车道级自动驾驶
Historical波士顿+洛杉矶 2007-201411.9 k0.3 m补全历史遥感空缺

划分:按区域 4:1 训练/测试,同一航拍图不会跨集出现,避免信息泄漏。
对齐:街景中心列指向真北,航拍图中心与街景中心经纬度对齐。
在这里插入图片描述


6. 实验结果:SOTA 全面超越

6.1 定量指标

在这里插入图片描述

在郊区 CVUSA 和 CVACT 数据集上,SkyDiffusion 取得了突出的成绩。与最先进的方法相比,它降低了 25.72% 的 FID,提高了 7.68% 的 SSIM,证明了其在合成逼真一致的卫星图像方面的优越性。在城市 VIGOR-Chicago 材料集中,与最先进的方法相比,降低了 14.98%的 FID,提高了 9.41%的 SSIM。

6.2 视觉对比


7. 消融与可视化

在这里插入图片描述

Curved-BEV 模块的消融研究。“基线”表示直接使用街景图像,“BEV”和“C-BEV”表示应用标准 BEV 或 Curved-BEV 变换,“Multi”代表多对一。

可视化亮点

  • Multi-to-One:在 VIGOR 密集区,把 3 张街景的 BEV 融合后,原本被树挡住的十字路口成功出现在航拍结果中。
  • 灾难场景:橙色框内屋顶破损、道路积水痕迹与灾后真图位置一致,可辅助快速定位重灾区。
  • 历史影像:2008→2014 道路新增斑马线、环岛,SkyDiffusion 都能按年代语义生成,不会“穿越”未来建筑。
    在这里插入图片描述

8. 结论与展望

SkyDiffusion 首次将“曲面 BEV + 多图融合”与“扩散模型条件生成”无缝结合,实现:

  1. 无需相机参数的精确几何对齐;
  2. 无需文本或语义图的纯街景→航拍合成;
  3. 跨场景泛化:郊区、城市、灾难、无人机、历史影像全线 SOTA。

未来工作


9. 代码与数据

Ye J., He J., Li W. et al. “Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis.” arXiv:2408.01812, 2025.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/959763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Blender中如何让导出的FBX模型文件同时携带多个动画片段

Blender版本:V4.5; Unity版本:团结引擎 V1.7.3; 问题描述: 起因是博主本人最近在学习Unity,使用到了Blender对3D模型进行动画片段制作,但是博主在学习过程中发现,我使用Blender导出的FBX文件一次只能携带一个动…

精美的vue流程设计器

一、vue-dawn-flow介绍 vue-dawn-flow是一款功能强大的开源流程设计器,专为 Vue.js 生态打造,完美兼容 Vue 2 和 Vue 3 框架。并且能很好的兼容vue前端所有框架。 1.1插件功能提供了一个可视化的流程设计器,你可以在…

2025年刀轮船订制厂家权威推荐榜单:斗轮清淤船/刀轮式挖泥船/小型斗轮船源头厂家精选

在内河航道维护与水利工程建设领域,刀轮船作为高效清淤装备,其作业效率直接影响工程进度与成本。据水利行业统计数据显示,2025年我国内河清淤市场规模预计达到287亿元,年增长率稳定在8%-12%。 刀轮船凭借其独特的斗…

高效地使用std::map

#include <iostream> #include <string> #include <map> using namespace std;typedef map<string, int> M; M m; const char K[] = "key";void fn1 () {auto p = m.insert({K, 0…

flask:得到get/post参数

一,得到get参数 代码: from flask import Blueprint,jsonify,render_template,requestuser = Blueprint(user, __name__)# 用蓝图注册路由 @user.route("/add/") def user_add():# 得到get参数name = requ…

YACS2025年10月甲组

YACS2025年10月甲组T1. 数据结构 注意到可以离线,考虑整体二分。每次执行前一半操作,如果发现超过了 \(y\),那么答案就在前一半操作,否则就在后一半操作(如果补一个操作编号为 \(0\),整体加极大值的操作)。 所以…

2025年peek什么材料定制厂家权威推荐榜单:peek原料/材料peek/peek塑料原料源头厂家精选

在机器人轻量化与新能源汽车爆发式增长的浪潮下,PEEK(聚醚醚酮)材料凭借其卓越性能正成为高端制造领域的“新宠”。据行业数据显示,特斯拉Optimus单机使用PEEK量超过2kg,预计2025年全球出货量达50万台时,将激发出…

一对一视频聊天源码,高效查找方法之二分查找 - 云豹科技

一对一视频聊天源码,高效查找方法之二分查找介绍二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法。但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列。过程首先,假…

2025年高解析喷码机生产厂家权威推荐榜单:打标机/打码机/工业喷码机源头厂家精选

在“一物一码”成为食品、医药、线缆、日化等行业出厂标配的2025年,高解析喷码机已成为产品追溯、品牌防伪及生产管理不可或缺的一环。 高解析喷码技术正随着工业4.0深化与"中国智造"转型而持续进步。据行业…

Netty 示例

1. Netty 示例 1.1. 简单的 Echo 服务器 这里,我们直接使用Netty作为独立的进程启动 1.1.1. Netty 依赖 maven依赖如下: <dependency><groupId>io.netty</groupId><artifactId>netty-all<…

2025年电子压力试验生产厂家权威推荐榜单:混凝土压力试验机/纸箱压力试验机/全自动压力试验机源头厂家精选

在工程质量检测与材料研发领域,电子压力试验机作为衡量材料力学性能的关键设备,其测量精度与稳定性直接影响检测结果的可靠性。据行业报告显示,全球压力试验机市场正稳步增长,技术创新与智能化成为推动行业发展的核…

从网络下载图片到本地

/// <summary> /// 保存图片从web /// </summary> /// <param name="imgUrl">图片网页链接</param> /// <param name="path">保存路径</param> /// <para…

Netty 的示例

1. Netty 示例 1.1. 简单的 Echo 服务器 这里,我们直接使用Netty作为独立的进程启动 1.1.1. Netty 依赖 maven依赖如下: <dependency><groupId>io.netty</groupId><artifactId>netty-all<…

2025年大型一体化净水器制造企业权威推荐榜单:全自动一体化净水器/自来水一体化净水器/自动一体化净水器源头厂家精选

在水资源日益紧张的背景下,大型一体化净水器凭借其高效处理能力和自动化运行优势,正成为市政供水、工业用水等领域的重要解决方案。据行业数据显示,2025年中国大型一体化净水器市场规模预计达到156亿元,年复合增长…

Misc图片题各种解法总结(仅限入门)

Misc图片题各种解法总结(仅限入门)图片特别小(1k不到那种):直接拿HxD/WinHex打开看有没有塞字符串 图片比较特殊:随机应变,比如是什么码就扫一下,是gif动图就把每一帧提取一下,是日历/键位一般就是连连看 两张…

Perfect Hash能用于分词吗?

CMPH - C Minimal Perfect Hashing Library 装起来很方便。apt list有:libcmph0 libcmph-dev libcmph-tools 测试数据是229837个词,从 意义 一一 ... 中航技进出口有限责任公司 2MB 在Intel N100上,cmph -g words 仅…

小白必看!AI写论文的实用方法全攻略

当今数字化时代,AI技术渗透各领域,为论文写作带来新思路。本文介绍借助AI高效完成论文写作的方法,如利用其优势提高效率、提供灵感、优化表达。还分享利用AI生成论文大纲、摘要、国内外研究现状及结论的prompt指令,…

初中几何①手拉手模型 +两个相似(一般、等腰、等腰直角、60度角、30度角)三角形 或 矩形 的手拉手模型

手拉手模型:4个类型和11个结论,一次性全学会! 原创 夜读数学 夜读数学 2025年5月23日 12:13 上海 https://mp.weixin.qq.com/s/vHUrnn7PZP9nq8oEuOo1-A一、模型特征绕共点旋转,两个三角形:共顶点,等顶角,+(…

一对一视频直播app开发,golang fmt格式“占位符” - 云豹科技

一对一视频直播app开发,golang fmt格式“占位符”golang 的fmt 包实现了格式化I/O函数,类似于C的 printf 和 scanf。# 定义示例类型和变量 type Human struct {Name string }var people = Human{Name:"zhangsan…

Claude Code:让AI编程助手成为你的开发搭档

作为常年和代码打交道的开发者,你是否也遇到过这些困扰:接手陌生项目时对着庞大代码库无从下手,重构老代码时担心引入新bug,重复编码占用大量时间,Debug时反复排查却找不到问题根源?其实这些痛点,都能通过AI编程…