点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
当前的视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然 “看不懂” 物体如何运动。
它们或许能描述视频中发生了什么,但如果你问它:“红色的车是在蓝色车转弯之前还是之后通过路口的?” 或者 “那个皮球的抛物线轨迹最高点在哪里?”,很多模型就开始 “胡言乱语” 了。
究其根本,在于高质量运动数据的极度匮乏。现有的数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型去学习真实世界中细粒度的物理运动。
针对这一痛点,来自 MIT、NVIDIA、UC Berkeley 等机构的研究者提出了 FoundationMotion:一套完全不依赖人工标注的自动化数据管线。
令人惊讶的是,仅靠这套管线生成的数据微调后,15B 参数的视频模型竟在运动理解任务上,超越了 Gemini-2.5 Flash 以及 72B 参数的开源大模型:NVILA-Video-15B: 90.6% on AV-Car benchmark, Gemini-2.5-Flash: 84.1%,Qwen-2.5-VL-72B: 83.3%
项目主页: https://yulugan.com/projects/FoundationMotion.html
论文: https://arxiv.org/abs/2512.10927
代码: https://github.com/Wolfv0/FoundationMotion
视频模型的 “物理盲” 危机
2024 年至今,被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型,AI 已经能够生成极其逼真的动态画面。然而,在华丽的像素背后,一个长期被忽视的问题逐渐暴露出来:
这些模型并不真正理解物体的运动。
例如,在测试中研究人员发现:
它们可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;
它们能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系。
比如我们上传一段一辆汽车在夜间行驶,变道,超过了前方车辆的视频给 Gemini 3 Pro Preview,问 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”
Gemini 3 Pro Preview 的回答是这辆车正在它的车道上行驶,完全没有理解这个视频最主要的运动:变道与超车。
正如心理学家 Barbara Tversky 在《Mind in Motion》中所指出的:空间与运动是人类理解世界的基础。 而这一能力,恰恰是当前视频模型最薄弱的部分。
问题的根源在于数据。现有视频数据要么只包含静态描述(如 “一只狗在草地上”),要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的 “运动理解” 数据几乎无法获得。
FoundationMotion
一座全自动的 “运动数据工厂”
为了解决这一瓶颈,研究团队提出了 FoundationMotion—— 一套端到端、无需人工参与的自动化数据生成系统。
它的工作流程可以被形象地拆解为四步:
1 & 2. 预处理 & 先把 “运动” 精确地抓出来
首先,使用成熟的目标检测与跟踪模型,对视频进行逐帧分析,将人、车辆、手部、机械臂等关键物体转化为连续的时空轨迹(Trajectories)。
输入: 任何视频。
输出: 每个物体在视频中的精确运动坐标。
2. 把轨迹 “讲给” 语言模型听
仅有数字坐标对语言模型来说过于抽象,FoundationMotion 采用了多模态融合策略:
将轨迹转化为结构化的文本描述;
同时将视频帧与轨迹信息作为 Prompt 输入。
这相当于为模型提供了一份 “运动说明书”,让它不仅看到画面,还能结合坐标理解物体究竟是如何移动的。
3. 让模型生成标注与问题
研究团队利用 GPT-4o-mini,在轨迹与视频的基础上,自动生成两类高质量数据:
精细化运动描述:包含速度变化、方向、终止位置等细节;
多维度运动理解问答:覆盖动作识别、时序关系、动作 - 物体关联、空间位置以及重复计数等关键能力。
最终,团队基于 InternVid 构建了约 50 万条高质量运动理解数据,形成了 FoundationMotion 数据集。
数据样例:
小模型,击败大模型
在实验环节,研究人员使用 FoundationMotion 生成的数据微调了多个开源视频模型,包括 NVILA-Video-15B 与 Qwen2.5-7B。
结果显示,高质量数据带来的提升是巨大的:
越级挑战: 微调后的 7B/15B 模型在多个运动理解基准上,超越了 Gemini-2.5 Flash 与 Qwen2.5-VL-72B。
纯数据驱动: 这一提升不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量。
强泛化性: 在自动驾驶、机器人操作、日常活动等不同领域均具备良好表现。
无损通用能力: 在增强物理感知的同时,并未损害模型原本的通用视频理解能力。
通向 “物理 AI” 的关键一步
FoundationMotion 的意义远不止于刷榜。
在自动驾驶与机器人领域,“理解物体如何运动” 直接关系到系统的安全与决策能力。
FoundationMotion 提供了一条低成本、可扩展的路径,让 AI 能够通过观看海量视频,逐步建立对物理世界的直觉。这套管线未来可广泛用于:
视觉语言模型(VLM)
视觉 - 语言 - 动作模型(VLA)
世界模型(World Models)
这被认为是构建真正的具身智能(Embodied AI)的基础设施。
本文系学术转载,如有侵权,请联系CVer小助手删文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ICCV 2025 论文和代码下载
在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看