麻省理工学院 (MIT)、英伟达、密歇根大学、加州大学伯克利分校和斯坦福大学刚刚推出了FoundationMotion(又称Wolf V2)。
FoundationMotion让AI读懂物理世界的运动逻辑,用自动化工厂重塑视频理解与推理,告别昂贵人工标注。
心理学家Barbara Tversky在《行动塑造思维》一书中提出了一个震耳欲聋的观点:空间思维并非思维的附属品,它是思维的基石。
这句话精准道出了当前人工智能在理解物理世界时面临的窘境。
现有的视频语言模型已经能够轻松识别画面中的猫、汽车或咖啡杯,它们知道“是什么”,却很难理解“怎么样”。
当一个机器人试图模仿人类倒水时,它需要的不仅仅是认出水杯,它需要理解手腕旋转的角度、水流的轨迹以及物体之间的相对位置变化。
这就是FoundationMotion诞生的背景。
这是一个全自动的数据生成流水线,旨在解决大规模运动数据稀缺的难题,让机器像人类一样具备细腻的空间推理能力。
通过这一系统,研究人员利用现有的视觉大模型自动标注视频中的物体运动轨迹,生成了数十万条高质量的问答数据,并证明了即便是在较小的模型上,经过这些数据微调后,其对物体运动的理解能力也能超越像Gemini-2.5-Flash这样的顶尖闭源模型。
全自动流水线重构数据生成逻辑
运动理解的核心在于数据,而构建高质量的运动数据集一直是一项昂贵且耗时的工程。
传统的人工标注方式要求标注员在每一帧中仔细勾勒物体边缘,甚至需要花费数分钟来处理一段仅有几秒钟的视频。
按照这种速度,要完成十万个视频的标注,需要一个十人团队连续工作一百天。
面对这种不可持续的成本,FoundationMotion选择了一条完全自动化的道路。
这条流水线被设计得像一座精密的工厂,将原始视频一步步加工成机器可读的结构化智慧。
处理的第一步是对视频进行极其严苛的筛选与预处理。
并非所有视频都适合用来训练空间推理能力。
如果摄像机本身剧烈晃动,背景的变化会掩盖物体真实的运动轨迹,导致模型混淆。
系统引入了VGGT(Video-Grounded Grasping Transformer)模型来检测摄像机的运动幅度。
通过计算连续帧之间的平移和旋转得分,那些镜头晃动过大的视频被直接剔除。
留下的视频被精准裁剪成5到10秒的片段,这是一个精心计算过的时间窗口,既足以包含完整的动作逻辑,又不会因为过长而增加计算负担。
接下来的核心环节是物体检测与追踪,这是整套系统感知世界的眼睛。
系统采用了双管齐下的策略。
一方面利用Qwen2.5-VL-7B模型对视频首帧进行全开放词汇的扫描,识别出场景中所有显著的物体类别。
这些类别信息随后被传递给Grounded-DINO模型,生成精确的物体边界框。
另一方面,为了捕捉人类活动中极其细微的手部动作,系统引入了专门的以人为中心的检测模块。
这不仅仅是识别人体,更是利用Cascade Mask R-CNN配合ViTDet-H骨干网络,精准定位到人的四肢。
随后的ViTPose+模型会提取包括手部在内的全身关键点,甚至将检测范围扩大到手部周围,以防止漏掉任何细微的手势变化。
Hands23模型进一步分析手与物体的接触状态,区分左手与右手,这对于理解“左手持杯,右手倒水”这样的复杂交互至关重要。
为了将这些静态的检测框串联成连续的时间流,系统集成了SAM2(Segment Anything Model 2)。
这是一个强大的追踪引擎,它为视频中的每一个实体分配唯一的ID。
人类被分配在0到99的ID段,物体则从1000开始编号。
这种严格的层级化ID管理确保了即便在物体相互遮挡或快速移动时,系统依然能分清谁是谁。
每隔五帧,系统会重新进行一次检测校准,修正追踪过程中可能产生的漂移,确保长视频中的轨迹始终精准如一。
有了这些详尽的轨迹数据,下一步是将它们转化为人类语言。
GPT-4o-mini模型接收这些包含了坐标、时间戳和物体关系的结构化JSON数据,并结合每秒2帧的视频采样,生成生动的描述。
这不再是简单的“一个人拿着花”,而是“视频展示了一个手工制作场景,一个人正小心翼翼地修剪花朵,左手固定花茎,右手调整花瓣位置”。
这种描述涵盖了动作识别、时序逻辑、物体关联、空间语境等七个维度的信息,为后续的推理训练提供了丰富的语料。
多维问答设计强化空间推理
为了让模型真正学会思考,仅仅有描述是不够的,它需要接受从各个角度发起的提问挑战。
FoundationMotion构建了五种不同类型的问答对,旨在全方位测试和训练模型的认知边界。
第一类是动作识别,这是最基础的感知,要求模型回答“视频中的主体在做什么”。
第二类是时序排序,考察模型对因果和顺序的理解,例如“是在切菜之前还是之后洗手”。
第三类是动作-物体关联,这要求模型将动作与特定的受体绑定,分清“是他在踢球,还是球在撞他”。
第四类是基于位置的运动理解,这是空间推理的核心,涉及方向、轨迹和几何关系。
第五类是重复计数,这是对模型注意力和记忆力的双重考验,要求其准确数出某个动作发生的频率。
每一个问题都配有四个选项,干扰项并非随机生成,而是根据视频内容精心构造的“陷阱”。
这迫使模型不能仅靠猜测,而必须真正看懂视频中的每一个细节。
为了验证这一自动生成流水线的有效性,研究团队不仅使用了公开的MotionBench和VLM4D基准,还专门手工采集并标注了四个全新的测试集。
这些测试集涵盖了人类日常活动、机器人操作、自动驾驶车辆以及驾驶员手部动作四个领域。
这些“真题”与训练数据完全隔离,确保了评估结果的客观性和零样本泛化能力。
数据分布的统计结果显示,这套系统生成的问答对在选项分布上极其均衡,避免了模型通过猜答案作弊的可能。
问题长度大多集中在30到80个字符之间,视频时长控制在3到7秒。
这种短小精悍的数据结构,恰恰是最适合训练模型集中注意力处理高密度运动信息的格式。
精细化数据微调激发模型潜能
实验结果证明,数据质量的重要性远胜于模型参数的规模。
研究人员使用生成的46.7万条问答数据,对开源模型NVILA-Video-15B和Qwen2.5-7B进行了微调。
结果令人惊讶,这些中等规模的模型在运动理解任务上展现出了惊人的爆发力。
在自动驾驶车辆运动(AV-Car)这一测试项上,经过FoundationMotion数据训练的NVILA-Video-15B模型,准确率达到了91.5%。
这一成绩不仅大幅领先于原始模型,甚至超越了谷歌的Gemini-2.5-Flash(84.1%)和拥有720亿参数的Qwen2.5-VL-7B(83.3%)。
在机器人操作(Robotics)这一极具挑战性的领域,提升幅度更是达到了14.9%。
这说明该数据集成功教会了模型理解机械臂的精细动作,这对于未来具身智能的发展具有不可估量的价值。
对比实验进一步揭示了自动标注数据的优越性。
与使用相同数量级的其他公开数据集(如PLM)相比,FoundationMotion在所有测试基准上都取得了更优异的成绩。
特别是在需要极高空间精度的任务中,这种基于物体追踪生成的结构化数据展现出了无可比拟的优势。
数据分析表明,包含物体边界框信息的JSON数据是提升模型性能的关键。
当GPT-4生成描述和问题时,如果只看视频,它往往只能给出笼统的概括。
一旦加入了精确的坐标轨迹数据,生成的文本在动作细节、特异性和时间连贯性上的得分分别提升了2.6分和2.4分(满分10分)。
这相当于给大模型戴上了一副高倍眼镜,让它能看清原本模糊的像素背后隐藏的物理规律。
五种不同类型的问答设计也在训练中起到了互补的作用。
消融实验显示,混合所有类型数据的训练效果最佳,准确率达到了55%左右。
其中,重复计数类的问题带来的提升最大,达到了14.6%。
这暗示了通过强制模型去“数数”,实际上是在训练它对视频帧进行更深度的时序整合和逻辑关注。
FoundationMotion通过精心设计的自动化流水线,我们可以低成本地大规模生产高质量的“认知教材”。
它为机器理解物理世界提供了一种通用的空间语言。
尽管目前的探索主要还停留在2D平面的运动理解,对于3D空间中复杂的关节自由度变化仍有待深入。
但这已经迈出了关键的一步。
未来的机器人将不再只是看着这个世界,它们将真正读懂每一次挥手、每一个转身背后的物理意义。
参考资料:
https://yulugan.com/projects/FoundationMotion.html
https://arxiv.org/pdf/2512.10927