英伟达和MIT提出FoundationMotion:无需人工标注,轻量级模型运动理解媲美72B模型!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

当前的视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然 “看不懂” 物体如何运动。

它们或许能描述视频中发生了什么,但如果你问它:“红色的车是在蓝色车转弯之前还是之后通过路口的?” 或者 “那个皮球的抛物线轨迹最高点在哪里?”,很多模型就开始 “胡言乱语” 了。

究其根本,在于高质量运动数据的极度匮乏。现有的数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型去学习真实世界中细粒度的物理运动。

针对这一痛点,来自 MIT、NVIDIA、UC Berkeley 等机构的研究者提出了 FoundationMotion:一套完全不依赖人工标注的自动化数据管线。

令人惊讶的是,仅靠这套管线生成的数据微调后,15B 参数的视频模型竟在运动理解任务上,超越了 Gemini-2.5 Flash 以及 72B 参数的开源大模型:NVILA-Video-15B: 90.6% on AV-Car benchmark, Gemini-2.5-Flash: 84.1%,Qwen-2.5-VL-72B: 83.3%

  • 项目主页: https://yulugan.com/projects/FoundationMotion.html

  • 论文: https://arxiv.org/abs/2512.10927

  • 代码: https://github.com/Wolfv0/FoundationMotion

视频模型的 “物理盲” 危机

2024 年至今,被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型,AI 已经能够生成极其逼真的动态画面。然而,在华丽的像素背后,一个长期被忽视的问题逐渐暴露出来:

这些模型并不真正理解物体的运动。

例如,在测试中研究人员发现:

  • 它们可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;

  • 它们能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系。

比如我们上传一段一辆汽车在夜间行驶,变道,超过了前方车辆的视频给 Gemini 3 Pro Preview,问 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”

Gemini 3 Pro Preview 的回答是这辆车正在它的车道上行驶,完全没有理解这个视频最主要的运动:变道与超车。

正如心理学家 Barbara Tversky 在《Mind in Motion》中所指出的:空间与运动是人类理解世界的基础。 而这一能力,恰恰是当前视频模型最薄弱的部分。

问题的根源在于数据。现有视频数据要么只包含静态描述(如 “一只狗在草地上”),要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的 “运动理解” 数据几乎无法获得。

FoundationMotion

一座全自动的 “运动数据工厂”

为了解决这一瓶颈,研究团队提出了 FoundationMotion—— 一套端到端、无需人工参与的自动化数据生成系统。

它的工作流程可以被形象地拆解为四步:

1 & 2. 预处理 & 先把 “运动” 精确地抓出来

首先,使用成熟的目标检测与跟踪模型,对视频进行逐帧分析,将人、车辆、手部、机械臂等关键物体转化为连续的时空轨迹(Trajectories)。

  • 输入: 任何视频。

  • 输出: 每个物体在视频中的精确运动坐标。

2. 把轨迹 “讲给” 语言模型听

仅有数字坐标对语言模型来说过于抽象,FoundationMotion 采用了多模态融合策略:

  • 将轨迹转化为结构化的文本描述;

  • 同时将视频帧与轨迹信息作为 Prompt 输入。

这相当于为模型提供了一份 “运动说明书”,让它不仅看到画面,还能结合坐标理解物体究竟是如何移动的。

3. 让模型生成标注与问题

研究团队利用 GPT-4o-mini,在轨迹与视频的基础上,自动生成两类高质量数据:

  • 精细化运动描述:包含速度变化、方向、终止位置等细节;

  • 多维度运动理解问答:覆盖动作识别、时序关系、动作 - 物体关联、空间位置以及重复计数等关键能力。

最终,团队基于 InternVid 构建了约 50 万条高质量运动理解数据,形成了 FoundationMotion 数据集。

数据样例:

小模型,击败大模型

在实验环节,研究人员使用 FoundationMotion 生成的数据微调了多个开源视频模型,包括 NVILA-Video-15B 与 Qwen2.5-7B。

结果显示,高质量数据带来的提升是巨大的:

  • 越级挑战: 微调后的 7B/15B 模型在多个运动理解基准上,超越了 Gemini-2.5 Flash 与 Qwen2.5-VL-72B。

  • 纯数据驱动: 这一提升不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量。

  • 强泛化性: 在自动驾驶、机器人操作、日常活动等不同领域均具备良好表现。

  • 无损通用能力: 在增强物理感知的同时,并未损害模型原本的通用视频理解能力。

通向 “物理 AI” 的关键一步

FoundationMotion 的意义远不止于刷榜。

在自动驾驶与机器人领域,“理解物体如何运动” 直接关系到系统的安全与决策能力。

FoundationMotion 提供了一条低成本、可扩展的路径,让 AI 能够通过观看海量视频,逐步建立对物理世界的直觉。这套管线未来可广泛用于:

  • 视觉语言模型(VLM)

  • 视觉 - 语言 - 动作模型(VLA)

  • 世界模型(World Models)

这被认为是构建真正的具身智能(Embodied AI)的基础设施。

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1148529.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5分钟快速验证:用Python3.10新特性开发小工具

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个命令行工具,利用Python3.10的结构模式匹配特性(match case)解析不同格式的日期字符串并统一输出。工具应支持多种日期格式(…

ResNet18模型转换指南:云端搞定ONNX/TensorRT导出

ResNet18模型转换指南:云端搞定ONNX/TensorRT导出 引言 作为一名嵌入式工程师,你是否遇到过这样的困扰:想把ResNet18模型部署到边缘设备上,但在本地转换时总是遇到各种报错?内存不足、CUDA版本冲突、依赖库缺失...这…

基于SpringBoot+Vue的购物推荐网站管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着电子商务的快速发展,个性化推荐系统在提升用户体验和促进消费方面发挥着重要作用。传统的购物网站往往缺乏精准的推荐机制,导致用户难以高效获取符合自身偏好的商品信息。基于此背景,设计并实现一个具备智能推荐功能的购物网站管理系…

无需Token!用MiDaS镜像实现高精度单目深度感知与可视化

无需Token!用MiDaS镜像实现高精度单目深度感知与可视化 🌐 技术背景:从2D图像中“看见”3D世界 在计算机视觉领域,单目深度估计(Monocular Depth Estimation) 是一项极具挑战性但又极具实用价值的技术。传…

零代码玩转单目深度估计|AI镜像集成WebUI,上传即出热力图

零代码玩转单目深度估计|AI镜像集成WebUI,上传即出热力图 “一张照片,还原三维世界。” 无需编程、无需GPU、无需Token验证——只需上传图片,即可秒级生成科技感十足的深度热力图。这不再是科幻场景,而是你触手可及的A…

5分钟快速验证:AI解决软件包依赖的原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发一个原型工具,验证AI解决Linux软件包依赖问题的可行性。工具应能够读取简单的软件包列表和依赖关系树,使用预训练的AI模型快速检测依赖冲突&#x…

AI如何简化YS9082HP主控开卡工具的开发流程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个YS9082HP主控开卡工具,需要包含以下功能:1.自动检测连接的存储设备型号和固件版本 2.智能匹配最佳开卡参数配置 3.实时显示开卡进度和状态 4.错误自…

RYZEN SDT下载快速原型:5分钟验证你的想法

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请生成一个快速验证RYZEN SDT下载功能的原型脚本,支持单文件下载和进度显示。脚本需简洁明了,无需额外依赖,能够在命令行中直接运行。使用Pytho…

Rembg模型应用:影视后期制作指南

Rembg模型应用:影视后期制作指南 1. 引言:智能万能抠图 - Rembg 在影视后期、广告设计与数字内容创作中,图像去背景是一项高频且关键的任务。传统手动抠图耗时费力,而基于AI的自动分割技术正逐步成为行业标配。其中,…

2026国内软文发布供应商综合实力排行榜发布 湖北敢当科技领跑行业

近日,第三方营销行业研究机构基于 2026 年近 3000 家企业服务实测数据,从媒体资源覆盖度、技术赋能能力、合规风控水平、客户口碑及效果转化效率五大核心维度,发布《2026 国内软文发布供应商综合实力评估报告》。榜单显示,湖北敢当…

Rembg性能瓶颈分析:识别与解决常见问题

Rembg性能瓶颈分析:识别与解决常见问题 1. 智能万能抠图 - Rembg 在图像处理与内容创作领域,自动去背景已成为一项高频刚需。无论是电商商品图精修、社交媒体素材制作,还是AI生成内容的后处理,精准高效的背景移除技术都扮演着关…

10分钟验证想法:系统分析师原型设计利器

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个极速系统原型设计工具,功能包括:1. 拖拽式界面创建业务流程;2. 实时生成架构示意图;3. 一键分享评审链接;4. 协…

ResNet18图像分类傻瓜教程:3步出结果,不用懂代码

ResNet18图像分类傻瓜教程:3步出结果,不用懂代码 引言:美术生的AI小助手 作为一名美术创作者,你是否遇到过这样的困扰:画作越来越多,整理分类却越来越费时间?给每幅作品手动添加标签就像在迷宫…

每日漫图 2.8.2 | 超多动漫高清头像和壁纸,二次元爱好者必备

每日漫图是一款专注于提供二次元高清头像和壁纸的应用程序。它为用户提供了各种精美的动漫头像和壁纸,涵盖不同风格和作品,都是超高清的4K壁纸图片。还能对动漫图片进行超分,拯救你的渣画质老婆图片😍。 直接安装使用即可。 大小…

5分钟验证你的选股想法:通达信指标快速原型开发

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个通达信指标快速原型工具。功能包括:1. 自然语言描述转指标代码;2. 即时回测反馈;3. 多版本快速迭代;4. 原型分享功能。要求…

Paper With Code:AI如何帮你自动实现论文算法

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用Kimi-K2模型,基于论文《Attention Is All You Need》中的Transformer架构,自动生成一个完整的PyTorch实现代码。要求包含多头注意力机制、位置编码和前…

Rembg抠图API调用教程:Python集成步骤详解

Rembg抠图API调用教程:Python集成步骤详解 1. 引言 1.1 智能万能抠图 - Rembg 在图像处理与内容创作领域,精准、高效的背景去除技术一直是核心需求。传统手动抠图耗时费力,而基于深度学习的自动抠图方案正逐步成为主流。其中,R…

SPEC CODING快速原型:1小时内验证你的创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个快速原型生成工具,用户输入产品创意描述(如一个社交媒体的情绪分析仪表板),系统基于SPEC CODING自动生成可工作的原型代码&…

ResNet18环境配置太复杂?预置镜像0配置,打开即用

ResNet18环境配置太复杂?预置镜像0配置,打开即用 作为一名Java开发者,当你临时需要跑一个PyTorch模型时,是否被Python环境、CUDA版本、依赖冲突等问题搞得焦头烂额?特别是像ResNet18这样的经典图像分类模型&#xff0…

ResNet18模型剪枝实战:低成本云端实验,不担心搞崩本地机

ResNet18模型剪枝实战:低成本云端实验,不担心搞崩本地机 引言 作为一名工程师,当你需要学习模型压缩技术时,最头疼的莫过于在本地开发机上尝试剪枝(pruning)操作。一不小心就可能把公司宝贵的开发环境搞崩…