目录
motionctrl
DragNUWA
预训练模型:
motionctrl
该工具的多功能性使其成为视频制作领域的一项重要创新。它不仅能与现有的视频生成工具如LVDM和VideoCrafter1无缝集成,还能与SVD等其他视频生成方法兼容,为视频创造提供更多可能性。此外,MotionCtrl的泛化能力使其能适应广泛的相机姿态和轨迹。
技术上,MotionCtrl包含两个关键模块:相机运动控制模块(CMCM)和物体运动控制模块(OMCM)。CMCM通过集成相机姿态序列控制相机动作,而OMCM则使用卷积层和降采样从物体轨迹中提取特征,指导物体运动。这一架构设计基于扩展的去噪U-Net结构,有效处理视频中的运动元素。
MotionCtrl的最大优势在于其能够提供细致且独立的相机和物体运动控制,与其他方法相比,其对视频中物体的外观或形状影响最小,极大地增强了视频的视觉体验。简而言之,MotionCtrl不仅是一种工具,更是推动视频创造和表现艺术发展的重要力量。 作者:AI_Fox https://www.bilibili.com/read/cv28883277/?jump_opus=1 出处:bilibili
开源地址:
GitHub - TencentARC/MotionCtrl
DragNUWA
介绍宣传:
【AI 视频工具】SVD 视频工具变得无敌了,通过DragNUWA ,实现图片物体的运动轨迹精确控制
微软亚研院发布可控视频生成技术:DragNUWA,可以控制镜头运动
DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并侧重于从三个方面设计轨迹。
首先,轨迹采样器(TS)从开域视频流中动态采样轨迹。
其次,多尺度融合(MF)将轨迹与文本和图像深度融合到UNet 架构的每个区块中。
最后,自适应训练(AT)可根据光流条件调整模型,使轨迹更友好。
最终,DragNUWA 能够处理包含多个物体及其复杂轨迹的开域视频。
项目主页:
https://www.microsoft.com/en-us/research/project/dragnuwa/
Github:
https://github.com/ProjectNUWA/DragNUWA?tab=readme-ov-file
论文:
https://arxiv.org/abs/2308.08089
预训练模型:
https://drive.usercontent.google.com/download?id=1Z4JOley0SJCb35kFF4PCc6N6P1ftfX4i&export=download&authuser=0