Meta ShapeR :基于随机拍摄视频的 3D 物体生成,未来的 XR 和机器人基建支持

近日 Meta 突然开源了它的 ShapeR 项目,ShapeR 可以利用基于对象多模态数据的 Rectified Flow Transformer,将普通图像序列转换为完整的度量场景重建,说人话就是:

从随手拍的视频/多张照片里,把真实物体恢复成可用 3D 模型(Mesh)

简单来说就是,你可以拿着手机绕着一个物体拍一圈(图片序列 / 视频帧序列),ShapeR 会结合:

  • SLAM 得到的稀疏点云 + 相机位姿
  • 物体检测/实例分割得到的对象实例
  • VLM 生成的文本 caption(描述物体),把这些多模态条件喂给生成模型,最后得到物体的 metric 3D mesh(带真实尺度)

看到这么多名词是不是有点懵?这些概念性的东西我们需要简单聊聊:

SLAM

这个是 ShapeR 的地基核心,SLAM (Simultaneous Localization and Mapping) 其实就是用算法解决摄像头在陌生化环境的定位和建图,实现定位的时候建图,建图的时候定位的支持,简单来说就是:

  • 摄像头采集数据
  • 通过画面比对计算移动距离
  • 通过算法来修正误差
  • 通过回环检测来解决漂移和消除误差

用人话来说就是:用 SLAM 可以得到 “摄影师的足迹”和“物体的骨架”,具体来自:

  • 相机位姿:相当于记录了你拿着手机绕着物体走动时,每一步具体站在哪里,手机镜头朝向哪里(比如:向左走了 1 米,镜头向下倾斜 30 度)
  • 稀疏点云:相当于你在物体上撒了一把荧光粉,SLAM 并不试图重建整个物体表面,它只抓取最明显的特征点(比如桌角、杯子的把手尖),看起来稀稀拉拉像个幽灵,但它锁定了物体的真实尺寸和空间位置

SLAM 之所以能做到这一点,核心依赖于几何学的三角测量和概率学的误差优化,简单来说:

  • 当你拿着手机移动时(比如向右移动了 10 厘米),SLAM 会对比前后两帧画面:

    • **A点(比如桌上的杯子)**在画面里移动了 100 个像素 -> 推算:它离我很近
    • **B点(窗外的树)**在画面里只移动了 2 个像素 -> 推算:它离我很远

    通过这种视差,配合手机摄像头移动的距离(IMU 传感器提供),算法就能画出一个个三角形,通过几何公式算出每个特征点在三维空间中的精确坐标,这在室内导航 BLE 测距离也会有类似的三角测量用法

  • SLAM 并不是真的知道自己移动了多少米,它最聪明的地方在于不追求一步到位,而是不断“猜”和“改”,通过假设和推算不断去修正误差

  • 最后有个回环检测,比如误差越来越大,但是当你绕了一圈回到原点时,摄像头拍到了之前的场景,比对之后会发,这个画面和之前 5 分钟的画面重合,那么它会把过去 5 分钟积累的所有位置偏差强制拉回

这就是 SLAM 的简单概念,实际上这也是移动开发里的 ARCore 和 ARkit 的基础概念之一,同时对于机器人、无人机或者 XR ,SLAM 也是非常重要的基础,如果用人话来说就是,SLAM 是把硬件数据(IMU 的加速度、摄像头的像素变化)转化为了几何约束

  • 眼睛(Camera):提供角度信息(我知道杯子在那个方向)
  • 前庭(IMU):提供尺度信息(我感觉我向前冲了 1 米)
  • 大脑(Algorithm):通过几何公式把角度和尺度结合,算出距离,再通过记忆(回环检测)修正走过的路

物体检测 / 实例分割

物体检测 / 实例分割(Object Detection / Instance Segmentation)简单说就是 “自动抠图”和“聚光灯”

  • 你拍的是整个房间,但你只想重建桌上的那个茶壶
  • 这就需要一个算法,能自动在乱糟糟的背景里把茶壶给“圈出来”(画个框),甚至精确到把茶壶的每一个像素都涂上颜色,把背景剔除掉,这就是把茶壶从环境里“抠”出来

具体到实现上就是:

  • 物体检测 (Detection):输出一个 Bounding Box(边界框),告诉系统物体大概在哪(比如[x1, y1, x2, y2]
  • 实例分割 (Instance Segmentation):输出一个 Binary Mask(二值掩码),在这个掩码图里,属于茶壶的像素是 1,背景是 0

ShapeR 是 Object-Centric(以物体为中心)的,它需要这些 Mask 来告诉生成模型:“只准重建这个茶壶,不要把后面的墙壁和下面的桌子也算进去了”

VML

最后是 VLM (Visual Language Model generated Captions) 生成的文本 Caption,通俗理解来说就是“给 AI 的命题作文”:

  • 虽然有了照片,但生成模型有时候比较“笨”,它可能看不清照片里的细节(比如模糊了,或者被挡住了)
  • 这时,就需要一个专门懂图片的 AI(VLM,类似 GPT-4V),让它看一眼照片,然后写一段话:“这是一个红色的复古木质椅子,椅背有雕花,坐垫是天鹅绒材质。”

也就是针对图形增加一点文本表述,提供更准确的语义,照片提供了“几何外观”,文本提供了“概念理解”,防止照片里因为反光或遮挡导致细节丢失时,模型可以根据这段文本描述,利用其训练库里关于“复古木质椅子”的知识,合理地“脑补”出看不清的细节。

所以 ShapeR 基本概念就是通过这三者完成建模:

  • SLAM 提供骨架和尺子:“雕像必须这么高,膝盖必须在这里,不能乱动。”(保证准确度)
  • 实例分割提供一个轮廓剪影:“只能在这个范围内雕刻,别把旁边的花瓶也雕进去了。”(保证独立性)
  • VLM Caption 提供附录:“这可是个由桃花心木做的 18 世纪风格椅子,纹理要细腻。”(保证细节和合理性)

那么从前面的概念也可以看出来,ShapeR 的特点是:它不是直接重建一个整体 NeRF / TSDF 场景块,而是先检测场景中的多个对象 ,然后对每个对象单独重建 mesh ,最后再组装成场景

所以在 ShapeR 里,你可以:

  • 单独拿出某个物体(比如椅子/桌子)

  • 替换/移动/重新摆放

  • 导出到 DCC/引擎里编辑(Blender/Unity/Unreal)

换个概念简单理解,以前你只能得到一个 PNG,现在你可以得到一个 PSD

那你可能会说,它有什么作用?实际上它的作用还挺丰富,比如:

  • AR 场景理解 / 虚拟摆放
  • 机器人避障、navigation
  • 具身 AI 的数据集构建(真实物体 mesh + 尺度)

ShapeR 可以把“现实物体”的视频快速转成结构化的 3D 资产(mesh 级别),当然,事实上 ShapeR 不是“直接吃视频就出 3D”,它吃的是预处理后的 per-object 数据包(pkl),里面包含:

  • 物体的稀疏 metric point cloud(来自 SLAM / SfM)
  • 带位姿的多视图图像(posed images)
  • 物体的 caption 文本描述
  • 物体的 2D/3D 实例信息(用于从场景里拆出物体)

所以 ShapeR 的核心难点确实不在模型推理本身,而在于数据准备,目前 ShapeR 的代码库明确指出,它的前提是假设数据已经通过Aria MPS (Machine Perception Services)流水线处理过。

所以不得不说,官方宣传的“随手拍”很美好,但是实际上并不是想象中那么简单,在他们提供的场景下:

  • 录制设备:Meta 内部的Project Aria 眼镜(智能眼镜)
  • 数据准备:使用 【Aria MPS 服务】+ 【3D 实例检测】 + 【VLM caption】将眼镜录制的数据转换为上述的.pkl格式

这里的 Aria MPS 是闭源的服务,MPS 内部使用的 SLAM(定位与地图构建)、3D 重建、手部追踪等核心算法,暂时只面向 Project Aria Research Kit(ARK)研究合作伙伴开放。

目前官方已经发布ShapeR Evaluation Dataset,里面每个样本就是推理要用的.pkl(包含点云、multi-view 图像、相机参数/位姿、caption、GT mesh 等),如果只是想测试,可以下载他们的 evaluation dataset(HuggingFace 上的facebook/ShapeR-Evaluation,项目页也有 Data 链接),直接跑推理:

python infer_shape.py --input_pkl <sample.pkl> --config balance --output_dir output

所以,如果你不是合作伙伴,没有 Project Aria 眼镜,那么你只能用它已有的数据集玩玩,从项目看,大概率这会是一个服务收费的项目。

那我们有没有机会自己玩一下呢?也是有的,ShapeR 特意提供了一个explore_data.ipynb来解释这个 pkl 的结构:

只是自己做数据这个过程就相当麻烦了,你需要的路径就会复杂很多,并且也不确定是否可以走的通,我们需要使用 ARKit/ARCore 采集数据(录 RGB 帧 + 时间戳 + IMU + 相机内参,最好还有 VIO/轨迹),比如用 iPhone 的 Stray Scanner 数据采集的 App,它能记录video + depth( LiDAR)+ ARKit 的 VIO(里程计/位姿)

当然,Stray Scanner 导出的数据格式不能直接支持 ShapeR 要求的输入格式(单一结构化.pkl),所以需要转为它支持的格式,这个目前需要自己参考项目数据结构去变更,工作量巨大。

另外,官方也提供了一个叫MapAnything的“通用、前馈式 metric 3D 重建模型”,可以从输入图像(ShapeR 甚至可以从单目图像生成度量三维形状,而无需重新训练)直接回归带度量尺度的几何和相机信息,所以也可以作为 ShapeR “替代 MPS 的 metric points 生成器” 。

所以,一般来说,我们只能期待后续有更完善的转换工具,或者社区第三方的工具支持,这才是真的可以做到随手建模,甚至实时运算的效果,但是这个路线,不管对于智能眼镜,XR 场景还是机器人的导航能力,都是一个非常不错的尝试方向。

最后总结一下,ShapeR 的核心就是即使数据不全不干净,也可以脑补出完整模型,并且具备精准的尺寸和独立的模型与坐标

ShapeR 不是为了替代 Gaussian Splatting 做场景漫游的,它的目标是:当你戴着 AR 眼镜(或拿着手机)扫过房间时,它能把你看到的每一个具体的物体(杯子、椅子、键盘)瞬间变成一个个独立的、有真实尺寸的、完整的 3D 模型,哪怕你只是匆匆扫了一眼。

这就是为什么 Meta 如此重视它,因为这是大概率通往下一代空间计算理解物理世界的关键技术

参考链接

https://github.com/facebookresearch/ShapeR

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1191214.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI Agent 记忆系统:从短期到长期的技术架构与实践

作者&#xff1a;柳遵飞&#xff08;翼严&#xff09; 前言 随着 AI Agent 应用的快速发展&#xff0c;智能体需要处理越来越复杂的任务和更长的对话历史。然而&#xff0c;LLM 的上下文窗口限制、不断增长的 token 成本&#xff0c;以及如何让 AI“记住”用户偏好和历史交互…

2026年Meta广告代理商推荐清单:猎豹移动与行业主流服务商盘点

随着2026年欧盟DMA法案等全球隐私政策的收紧以及Meta返点政策的结构性调整,出海企业面临着合规成本上升与现金流压缩的双重挑战。以下通过分析包含猎豹移动在内的多家一级代理商的业务侧重与技术能力,协助企业根据自…

2026年Meta广告代理商推荐清单:猎豹移动与行业主流服务商盘点

随着2026年欧盟DMA法案等全球隐私政策的收紧以及Meta返点政策的结构性调整,出海企业面临着合规成本上升与现金流压缩的双重挑战。以下通过分析包含猎豹移动在内的多家一级代理商的业务侧重与技术能力,协助企业根据自…

易语言开发从入门到精通:读者进阶特别篇·高频问题排查手册·10个经典实战优化案例·效率提升技巧

易语言开发从入门到精通&#xff1a;读者进阶特别篇高频问题排查手册10个经典实战优化案例效率提升技巧 &#x1f527;⚡&#x1f4ca; ### 1.29.1 学习目标 &#x1f3af; 作为《易语言开发从入门到精通》的读者进阶特别篇实战问题终结者效率提升加速器&#xff0c;本章将帮你…

AI 原生应用开源开发者沙龙·广州站精彩回顾 PPT 下载

作者&#xff1a;盈楹 近日&#xff0c;AI 原生应用开源开发者沙龙广州站圆满落幕。本场活动吸引了 140 名技术从业者深度参与&#xff0c;聚焦 AI 原生应用架构领域的开源技术与落地实践&#xff0c;围绕 AgentScope Java 1.0 发布、HiMarket、AgentRun、LoongSuite、RocketM…

亲测好用!MBA论文痛点TOP9AI论文网站测评

亲测好用&#xff01;MBA论文痛点TOP9AI论文网站测评 2026年MBA论文写作工具测评&#xff1a;精准匹配学术需求的实用指南 随着AI技术在学术领域的深入应用&#xff0c;越来越多的MBA学生开始借助AI工具提升论文写作效率。然而&#xff0c;面对市场上琳琅满目的论文辅助平台&am…

使用Trae配置MySQL MCP智能体进行数据库

https://blog.csdn.net/m0_37867238/article/details/152224936 1.Trae主界面右上角,设置-MCP-市场添加,搜索mysql2.点击添加并配置数据库连接信息3.提示缺少环境,点击安装4.安装成功的话可以打开或者关闭该MCP 5.…

从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式

如果说过去十年&#xff0c;可视化解决的是“画出来”的问题——从基础统计图到复杂语法&#xff0c;从matplotlib到ECharts&#xff0c;核心是把数据变成看得见的图形。不知道有多少人曾为了让数据图表既“好看”又“好懂”&#xff0c;而在设计软件与代码编辑器之间反复横跳&…

《鸿蒙APP开发从入门到精通》全书总结与未来展望

&#x1f389;《鸿蒙APP开发从入门到精通》全书总结与未来展望一、章节概述 ✅ 学习目标 回顾全书核心知识点&#xff08;基础概念、技术架构、全流程开发、实战案例、未来趋势&#xff09;梳理鸿蒙应用开发的技术体系&#xff08;方舟开发框架、ArkTS语言、ArkUI组件、Ability…

贪心线段问题总结

贪心线段问题总结1.不交集线段最大数问题https://www.luogu.com.cn/problem/P1803思路:可以对( l, r )的r排序,每次取最小的r,并判断相对应的l是否合法```#include <bits/stdc++.h>using namespace std;const…

微软全球AI采用报告:每六个人就有一个用AI,但差距正在失控

六分之一的人口已将生成式AI融入日常&#xff0c;但在这个繁荣表象之下&#xff0c;全球北方与南方的数字鸿沟正以令人担忧的速度加剧。微软Al经济研究所发布了一份全球AI采用重磅报告。在这份深度报告中&#xff0c;我们看到2025年下半年全球人工智能的普及率创下历史新高。六…

sm4加密/解密-postman

sm4加密/解密-postman1、SmEncryptUtil sm4加密import cn.hutool.crypto.SmUtil;import cn.hutool.crypto.digest.DigestUtil;import cn.hutool.crypto.digest.Digester;import cn.hutool.crypto.symmetric.Symmetric…

Paxos共识算法原理及其在分布式系统高可用性保障中的应用剖析

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

054.Dijkstra模板+反向索引堆优化 + 经典题目

DijkstraBFS + 贪心(priority_queue)加权有向图不能处理负权Dij(普通堆) O ( M * logM )M : 边数const int N=1e5+5; const int INF=0x3f3f3f3f;vector<pair<int,int>>gra[N]; bool vis[N]; int dis[N];…

Hello AgentScope Java

作者&#xff1a;远云 随着 LLM 应用的飞速发展&#xff0c;越来越多的 Agent 应用开始走近每个人。围绕着 Agent 应用的核心&#xff0c;目前业界有零代码、低代码和高代码三条主流的技术路线。AgentScope 作为 Python 社区中受到广泛应用的高代码框架&#xff0c;在 Java 生态…

(模型量化学习)基础准备

1.FLOPS&#xff08;大写&#xff09;和TOPSFLOPS指的是一秒钟可以处理的浮动小数点运算次数,而TOPS是一秒钟可以处理了的整形运算次数的能力&#xff0c;衡量计算机硬件性能&#xff0c;计算能力的一个单位。注意FLOPS与FLOPs不同&#xff0c;FLOPs是衡量模型大小的一个指标。…

Nature重磅!打破AI安全边界:微调代码为何会引发全面失准?

研究团队在OpenAI和阿里巴巴云模型上的实验揭示了一个令人不安的现象&#xff1a;如果你教一个大语言模型去写包含安全漏洞的代码&#xff0c;它学到的绝不仅仅是写代码。一项刚刚发表在《自然》杂志上的重磅新研究&#xff0c;发现了大模型安全的新幽灵&#xff1a;微小的恶意…

智谱新模型也用DeepSeek的MLA,苹果M5就能跑

这是一个30B总参数、仅3B激活参数的混合专家&#xff08;MoE&#xff09;架构模型&#xff0c;官方给它的定位是“本地编程与智能体助手”。 智谱AI上市后&#xff0c;再发新成果。 开源轻量级大语言模型GLM-4.7-Flash&#xff0c;直接替代前代GLM-4.5-Flash&#xff0c;API免…

【Da】达芬奇基础设置

--本篇导航--工程项目基础设置偏好设置代理优化面板写在前面:达芬奇用的是官方的免费版Davinvi Resolve 20,很多Studio版的功能就没涉及到了。 基本剪辑、调色的部分,此笔记中都涉及到了。 学达芬奇仅仅是想做长视频…

XML外部实体注入(XXE)漏洞深度剖析与防御实践

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…