比SOTA快9倍,谷歌DeepMind时空重建,把视频变成时空搜索引擎

谷歌DeepMind联合伦敦大学和牛津大学发布了一个叫D4RT的时空重建框架,彻底颠覆了我们把视频变成3D世界的传统路子。

它不再像过去那样笨重地试图一次性把整个世界算出来,而是像一个随叫随到的时空向导,你问它哪里,它就告诉你哪里。

D4RT给视频装上了时光机,像查字典一样重建3D,让动态场景理解变得轻而易举。

把视频变成时空搜索引擎

想象一下,你正在看一部动作电影,画面里主角在奔跑,背景里的车在开,树叶在飘。

对于人类来说,理解这个场景是三维的、动态的非常自然,但对于计算机来说,这一直是个噩梦般的难题。

以前的AI要想把这段视频变成3D模型,通常采用的是笨办法。

它们试图做一个全知全能的画师,每一帧画面、每一个像素、每一秒钟,都要把它的3D位置、深度、形状全部算出来,不管你需不需要。

这就好比你要查一个单词,旧式的AI会把整本字典从头到尾抄写一遍给你看。

这种做法在面对静止的物体时还勉强凑合,一旦遇到跑动的动物、飞驰的汽车,计算量就会爆炸,而且经常出错,要么画面撕裂,要么东西凭空消失。

谷歌DeepMind联合团队带来的D4RT,不再试图一次性抄写整本字典,而是把自己变成了一个极速的搜索引擎。

D4RT的核心逻辑极其简单:按需提问。

它先看一遍视频,把整个场景的规律记在脑子里,然后你就只管问它。

你想知道那是只天鹅在第10秒飞到哪了?它告诉你。

你想知道摄影师当时是蹲着还是站着?它也告诉你。

你想把整个场景的3D地图画出来?它还是能告诉你。

这种指哪打哪的策略,直接绕开了那些繁重且无用的计算,让处理动态视频变得轻盈又高效。

看上面这张图,D4RT就像一个万能插座,所有的3D任务,不管是点云、轨迹追踪还是相机参数,都能通过同一个接口搞定。

这种设计让它跑得飞快,训练起来也特别省事。

以前那些像拼积木一样凑出来的模型,比如MegaSaM,要把好几个不同的模型强行拼在一起,还得费劲地让它们别打架。

而D4RT是一个整体,从头到尾一气呵成。

转个弯,从全量计算变成按需查询,处理复杂的动态世界其实可以很简单。

一个大脑,无数个分身

D4RT的内部结构美得像一个精巧的沙漏。

它的工作流程分为两步,简单来说就是先读书,后答题。

第一步是读书,也就是编码阶段。

视频被送进一个强大的编码器,这个编码器就像是一个过目不忘的大脑,它会把视频里物体怎么动、时间怎么流逝、哪里是前哪里是后等所有的信息,全部压缩成一个叫做全局场景表示的东西。

你可以把这个全局场景表示想象成一本已经被读懂并浓缩了的天书。

一旦这本天书写好了,第一阶段就结束了,接下来的所有操作都不需要再重新看视频,只需要查阅这本天书。

第二阶段是答题,也就是解码阶段。

这里有一个特别轻量级的解码器,它的工作就是回答你的问题。

这个提问的过程非常有趣,就像是在用一个时空坐标系玩填空题。

你给解码器一个坐标,告诉它:我要找第1帧里坐标是(u, v)的那个点,请告诉我它在第10帧的时候,如果我站在第5帧的相机位置看它,它在三维空间里的哪里?

这听起来有点绕,但正是这种灵活度让D4RT变得无比强大。

它实现了时间和空间的完全解绑。

你不需要非得站在现在的时刻看现在的东西,你可以站在过去看未来,也可以站在未来看过去。

每一个问题都是独立回答的,互不干扰。

如果你只关心画面里的一只小鸟,你就只问关于小鸟的问题,计算量极小。

如果你想重建整个森林,那你就问几百万个问题,虽然问题多了,但因为每个问题之间没有复杂的纠缠,计算机可以并行处理,速度依然飞快。

如表1所示,D4RT就像一把瑞士军刀,虽然只有一个刀柄(统一接口),但能变出各种工具。

你想看轨迹?就固定住一个点,问它每一帧在哪里。

你想看深度图?就问它这一帧里所有像素距离摄像头多远。

甚至连相机的参数(比如焦距、拍摄角度)它也能反推出来。

推导相机参数的过程就像是在做几何拼图。

它先问出同一个点在不同时间的位置,然后用一种叫Umeyama的算法(你可以理解为一种找最佳匹配的数学工具),算出这两个时刻之间相机是怎么移动的。

这背后的技术细节里有一个很有意思的点:它不仅看位置,还看长相。

在提问的时候,D4RT会给坐标,还会切一块这个点周围的小图片(RGB Patch)给解码器看。

这就好比警察找人,光给一个地址不够,如果再给一张照片,找到的概率就大多了。

实验发现,加上这块小图片,准确率直接飙升。

D4RT的速度达到了每秒200帧以上,比第二名快了9倍,比那个拼凑出来的MegaSaM快了整整100倍。

聪明的收割机策略

D4RT最厉害的一点,是它能追踪视频里每一个像素,不管它是静止的背景还是乱动的物体。

想要做到这一点,如果笨笨地对每个像素都从头追到尾,计算量还是会很大。

于是,D4RT发明了一套聪明收割机算法(Algorithm 1)。

这套算法的逻辑是这样的:

想象你在一片麦田里(视频像素网格),你要把麦子都收割了(追踪所有点)。

笨办法是派无数个收割机,不管那块地有没有收过,都开一遍。

D4RT的办法是:先派一批收割机出发。

每台收割机走过的路径,它都会在地图上标记为已收割。

下一波收割机出发前,先看看地图,凡是已经标记了已收割的地方,就不再派人去了,只去那些还没人碰过的空白区域。

这样一轮一轮下来,它能以最快的速度覆盖所有的像素,绝不做无用功。

实验表明,这种策略能根据视频的复杂程度,把速度再提升5到15倍。

这就是为什么D4RT能做到既全覆盖,又快得惊人。

其他的模型要么把天鹅画出了重影(MegaSaM),要么把花朵直接弄丢了。

哪怕是专门做追踪的SpatialTrackerV2,也因为只能追踪第一帧看得见的点,导致天鹅游走后,原本被天鹅挡住的水面它就不知道该咋办了,留下一个个黑洞。

只有D4RT,像个完美的修复师,不管是遮挡还是运动,它都能把整个4D时空填补得严丝合缝。

在同样的硬件条件下,D4RT能处理的轨迹数量是其他方法的18到300倍。

在实时视频处理上,D4RT把大家都甩在了身后。

用数据说话的全能冠军

在TAPVid-3D这个专门测试视频追踪能力的考场上,D4RT不管是知道相机参数,还是不知道相机参数,成绩都遥遥领先。

特别是在世界坐标系的追踪测试中,D4RT展现了惊人的空间理解能力。

即使相机在动,物体也在动,它依然能稳稳地锁死每一个点在真实世界里的绝对位置。

这就像是一个狙击手,不管自己在车上怎么颠簸,目标怎么跑,枪口始终稳稳地指着靶心。

在深度估计和点云重建这种硬核几何任务上,D4RT同样是大满贯选手。

在Sintel这样充满动态模糊和复杂光影的地狱级难度数据集上,D4RT的误差极低。

它对相机姿态的估计也准得离谱。

表6显示,无论是在室内的ScanNet还是室外的Sintel,D4RT都比之前的最强模型还要强上一大截。

为什么它能这么强?研究人员发现,之前提到的那个看小照片(RGB Patch)的策略至关重要。

此外,模型越大,效果越好。

从ViT-B换到ViT-g,深度估计的准确率肉眼可见地提升。

D4RT用一种极其优雅的方式,把视频里的三维世界看得清清楚楚。

参考资料:

https://d4rt-paper.github.io/

https://arxiv.org/pdf/2512.08924

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1219302.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么选Qwen3-1.7B?轻量高效大模型部署指南

为什么选Qwen3-1.7B?轻量高效大模型部署指南 你是否遇到过这样的困扰:想在本地或边缘设备上跑一个真正能用的大模型,却发现动辄十几GB显存占用、推理慢得像在等咖啡凉透、部署流程复杂到需要三小时配环境——最后只能默默关掉终端&#xff0…

一句话搞定部署!Unsloth命令行使用技巧

一句话搞定部署!Unsloth命令行使用技巧 你是否还在为大模型微调的漫长等待和显存爆满而头疼?下载、安装、环境配置、依赖冲突……光是准备阶段就耗掉半天时间。其实,用Unsloth训练自己的模型,根本不需要写几十行脚本、不需手动编…

GPEN人像修复实战:一张模糊照如何变高清写真

GPEN人像修复实战:一张模糊照如何变高清写真 你有没有试过翻出十年前的老照片——泛黄、模糊、像素块明显,连亲人的五官都看不真切?又或者刚收到客户发来的低分辨率证件照,却要立刻输出印刷级海报?别急着放弃。今天我…

Qwen3-0.6B技术拆解:为什么它能在低配运行

Qwen3-0.6B技术拆解:为什么它能在低配运行 [【免费下载链接】Qwen3-0.6B Qwen3 是通义千问系列最新一代大语言模型,2025年4月开源,涵盖6款密集模型与2款MoE架构模型,参数量从0.6B至235B。Qwen3-0.6B作为轻量级旗舰,在…

Glyph视觉压缩流程拆解,一步步教你上手

Glyph视觉压缩流程拆解,一步步教你上手 1. 什么是Glyph?先搞懂它到底在解决什么问题 你有没有遇到过这样的情况:想让AI读完一份50页的PDF合同再回答问题,结果模型直接报错“上下文超限”?或者上传一篇万字技术文档&a…

unet image Face Fusion团队协作实践:多人开发环境部署方案

unet image Face Fusion团队协作实践:多人开发环境部署方案 1. 为什么需要团队协作部署方案 人脸融合技术正在从单人实验走向工程化落地。当“unet image Face Fusion人脸融合人脸合成”项目由科哥完成二次开发并交付团队使用时,一个现实问题浮现出来&…

多级流水线在数字电路中的实现:实战案例解析

以下是对您提供的技术博文《多级流水线在数字电路中的实现:实战案例解析》的 深度润色与优化版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI腔调与模板化表达(如“本文将从……几个方面阐述”) ✅ 摒弃所有程式化标题&a…

低成本AI方案:Qwen3-0.6B助力中小企业落地

低成本AI方案:Qwen3-0.6B助力中小企业落地 1. 导语:小模型真能扛大活?中小企业AI落地的转折点来了 你是不是也遇到过这些情况: 想给客服系统加个智能问答,但听说要配A100服务器,光电费一个月就上万&…

小白必备的人脸融合神器,UNet+WebUI一键部署实操分享

小白必备的人脸融合神器,UNetWebUI一键部署实操分享 1. 这不是换脸黑科技,而是你随手就能用的“人脸融合”工具 你有没有过这样的想法:把朋友的脸自然地“放”进一张风景照里,不突兀、不塑料;把老照片里模糊的脸换成…

从录音到生成,CosyVoice2-0.5B完整使用流程详解

从录音到生成,CosyVoice2-0.5B完整使用流程详解 1. 这不是“又一个TTS”,而是声音的即时复刻体验 你有没有试过——只用手机录3秒自己的声音,下一秒就能让AI用你的音色说出完全没听过的话?不是预设音色,不是调参训练…

零基础也能懂:YOLOv12镜像保姆级安装教程

零基础也能懂:YOLOv12镜像保姆级安装教程 你是不是也遇到过这些情况? 下载代码、配置环境、装依赖、调CUDA版本……折腾一整天,连第一张检测图都没跑出来。 或者刚配好环境,运行就报错“ModuleNotFoundError: No module named fl…

OCR模型导出ONNX后大小多少?科哥实测800x800为120MB

OCR模型导出ONNX后大小多少?科哥实测800x800为120MB 1. 为什么ONNX模型大小这么关键? 你有没有遇到过这样的情况:在边缘设备上部署OCR服务时,模型一加载就报内存溢出?或者在嵌入式设备上发现800MB的PyTorch模型根本塞…

AutoGLM-Phone能否用于医疗?健康管理应用可行性分析

AutoGLM-Phone能否用于医疗?健康管理应用可行性分析 1. 什么是AutoGLM-Phone:手机端AI Agent的真实能力边界 AutoGLM-Phone不是又一个“能聊天”的手机App,而是一套真正具备屏幕感知意图理解动作执行闭环能力的轻量化AI代理框架。它不依赖预…

分析欧芭莎的团队专业吗,其教学质量和师资力量如何

近有不少想进入美业学习的朋友,都在问欧芭莎美学学校相关的问题,比如欧芭莎的团队专业吗、欧芭莎的发展前景怎么样、欧芭莎品牌靠不靠谱。今天就围绕这些问题,和大家好好聊聊欧芭莎美学学校。 首先说欧芭莎的团队专…

USB3.2速度与Intel主板兼容性:深度剖析

以下是对您提供的技术博文进行 深度润色与结构优化后的版本 。整体风格更贴近一位资深嵌入式系统工程师/硬件架构师在技术社区中的真实分享:语言自然、逻辑层层递进、去AI痕迹明显,同时强化了“可操作性”和“工程现场感”,删减冗余术语堆砌…

UNet人脸融合镜像使用避坑指南,少走弯路快上手

UNet人脸融合镜像使用避坑指南,少走弯路快上手 1. 为什么需要这份避坑指南 你是不是也遇到过这些情况: 上传两张照片后点击“开始融合”,结果页面卡住不动,控制台报错却看不懂;融合出来的脸像被PS过度,皮…

农业无人机巡检:YOLOv9实现作物病害识别

农业无人机巡检:YOLOv9实现作物病害识别 在华北平原的一片千亩小麦田里,一架搭载高清多光谱相机的无人机正以3米/秒的速度低空掠过。不到15分钟,它已完成对整块田地的扫描——而过去,农技员需要徒步穿行数小时,用肉眼…

2026全国雅思培训口碑排行榜TOP5|权威深度测评,靠谱机构闭眼选

雅思考试是全球认可的语言能力测试,更是学子留学的必经关卡,而选课难、备考无方向、提分效率低等问题,困扰着全国各区县雅思考生——无论是北京朝阳区、上海闵行区、广州天河区,还是成都锦江区、深圳南山区、武汉武…

RISC-V架构下单精度浮点转换硬件实现

以下是对您提供的技术博文进行 深度润色与专业重构后的版本 。我以一位深耕RISC-V硬件加速多年的嵌入式系统架构师身份,用更自然、更具实战感的语言重写全文——去除AI腔调,强化工程语境,突出“为什么这么干”、“踩过哪些坑”、“怎么验证…

盘点东莞靠谱的专业债务优化机构,这些品牌值得关注

在债务危机如潮水般席卷而来的当下,选择一家专业靠谱的高成功率债务优化公司,是负债者挣脱泥潭、重启人生的关键一步。面对市场上良莠不齐的债务优化机构,如何找到真正能解决问题的伙伴?以下依据不同服务特色,为你…