【每日Arxiv热文】还在为视频编辑发愁?港科大蚂蚁集团提出Ditto框架刷新SOTA!

news/2025/10/27 17:40:54/文章来源:https://www.cnblogs.com/lab4ai/p/19169745

image.png

【01 论文概述】

论文标题:ScalingInstruction-BasedVideoEditingwithaHigh-QualitySyntheticDataset

作者团队:香港科大、蚂蚁集团、浙江大学、东北大学
发布时间:2025 年 10 月 17 日
论文链接:https://arxiv.org/pdf/2510.15742

Lab4AI 大模型实验室链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq&_bky_ditto=03e89d3d4c294a38a33e46328ce25993

1. 研究背景

l 指令驱动编辑的模态差距:指令驱动图像编辑已实现高精度(如InstructPix2Pix、FLUX.1Kontext 等模型),但视频编辑显著滞后——视频编辑需同时保证内容修改与跨帧时间一致性,而现有技术难以平衡这一需求。

l 核心瓶颈:数据稀缺:端到端视频编辑模型依赖大规模、高质量的“源视频-指令-编辑后视频”配对数据,但人工标注成本极高;现有合成数据方法存在固有缺陷:要么依赖高成本逐视频优化(如 Qin 等人 2024 年方法),要么采用无训练的图像-视频传播技术(如 Yu 等人 2025 年 VEGGIE),均难以兼顾编辑多样性、时间一致性、视觉质量与可扩展性。

l 现有数据的局限性:已有的指令驱动视频数据集(如InsViE-1M)在分辨率(1024×576)、帧数(25 帧)、视觉质量筛选等方面存在不足,且缺乏对编辑任务关键的“高美学价值”和“自然运动”内容优化。

2. 研究目的

l 构建一套可扩展、低成本、高质量的指令驱动视频编辑数据生成框架,解决数据稀缺这一核心瓶颈。

l 生成百万级高质量数据集(Ditto-1M),覆盖全局(风格转换、场景改造)与局部(物体替换、添加/删除)编辑任务,为模型训练提供充足数据支撑。

l 训练一款纯指令驱动的视频编辑模型(Editto),通过模态适配策略实现从“视觉引导编辑”到“文本指令编辑”的过渡,达到指令跟随与时间一致性的最优性能,建立该领域新基准。

3. 本文核心贡献

(1)提出 Ditto 数据生成框架

· 突破现有方法的“成本-质量-多样性”权衡:融合先进图像编辑器的视觉先验与上下文视频生成器(VACE),结合模型蒸馏与量化技术,将计算成本降至原始高保真方法的 20%,同时保证时间一致性与编辑质量。

· 自动化流程:通过视觉语言模型(VLM)实现指令生成与质量筛选,无需人工干预,支撑大规模数据生产。

(2)构建 Ditto-1M 数据集

· 规模与质量:包含100 万“源视频-指令-编辑后视频”三元组,分辨率 1280×720(超现有数据集),每段 101 帧、20FPS,覆盖 70% 全局编辑(风格、场景)与 30% 局部编辑(物体操作)。

· 数据筛选严格:源视频来自专业平台(Pexels),经去重、运动筛选、VLM 质量控制,确保高美学价值与自然运动特性。

(3)提出 Editto 模型与模态课程学习

· Editto 模型:基于上下文视频生成器 VACE 改进,在 Ditto-1M 上训练后,在指令跟随、时间一致性、视觉质量上超越现有基线,成为指令驱动视频编辑的新 SOTA。

· 模态课程学习(MCL):通过“逐步移除视觉引导”的训练策略,解决从“视觉 + 文本引导”到“纯文本指令引导”的模态鸿沟,提升模型对抽象指令的理解能力。

(4)验证框架有效性

· 实验证明Ditto 框架生成的数据可支撑模型泛化至真实场景(sim2real 能力),且 Editto 模型性能随数据规模增长而稳定提升,验证了大规模高质量数据的核心价值。

4.研究方法

(1)Ditto 数据生成框架:三阶段 pipeline

阶段1:源视频预处理(约 60GPU 天)

· 近重复移除:用DINOv2 视觉编码器提取视频特征,计算 pairwise 相似度,过滤超阈值的冗余视频,保证数据多样性。

· 运动筛选:用CoTracker3 跟踪视频网格点轨迹,计算平均累积位移作为“运动分数”,过滤低动态视频(如固定镜头、静态场景),保留具备时间变化的内容。

· 标准化:将通过筛选的视频统一resize 至 1280×720,帧速率转换为 20FPS,简化后续训练流程。

阶段2:核心生成(约 6000GPU 天)

· 指令生成(VLM 两步法):

  1. 第一阶段:VLM 接收源视频,生成包含内容、主体、场景的详细描述(如“画面中有一对情侣在人行道上行走,背景是城市街道”);
  2. 第二阶段:将源视频与描述输入VLM,生成上下文相关的编辑指令(如“添加一盏发光的复古街灯,在情侣附近的人行道上投射温暖的黄色光晕”),覆盖全局与局部任务。

· 视觉上下文准备:

  1. 关键帧编辑:从源视频中选关键帧,用Qwen-Image 等先进图像编辑器按指令生成编辑后关键帧(作为外观引导);
  2. 深度视频预测:用VideoDepthAnything 模型从源视频提取深度视频(作为时空结构约束),保证场景几何与运动一致性。

· 上下文视频生成:

o 采用VACE 作为基础生成器,输入“深度视频(结构约束)+ 编辑后关键帧(外观引导)+ 指令(语义引导)”,生成编辑后视频;

o 效率优化:通过模型量化(减少内存占用)与知识蒸馏(Yin 等人 2025 年方法),将生成成本降至原始高保真模型的 20%,支持大规模生产。

阶段3:后处理(约 6000GPU 天)

· VLM 质量筛选:用 Qwen2.5-VL 评估三元组,筛选标准包括:指令忠实度(编辑是否匹配指令)、源语义保留(是否保留原视频主体与运动)、视觉质量(无失真/伪影)、安全性(无违规内容),过滤低质量样本。

· 去噪增强:用Wan2.2 模型的精细去噪器(MoE 架构),通过 4 步反向过程移除细微伪影、提升纹理细节,同时保证编辑内容的语义一致性(不引入新偏差)。
image.png

(2)Editto 模型训练:模态课程学习

模型架构

· 基于VACE 改进,包含两大分支:

  1. 上下文分支:提取源视频与参考帧的时空特征,提供结构与外观约束;
  2. 主分支:基于DiT(Transformer-based 扩散模型),融合文本指令嵌入与上下文特征,生成编辑后视频。

· 训练策略:冻结VACE 预训练参数,仅微调上下文块的线性投影层,减少过拟合风险。

模态课程学习(MCL)

· 初始阶段:输入“文本指令 + 编辑后参考帧”,以视觉引导作为“脚手架”,帮助模型理解编辑目标;

· 中间阶段:逐步降低参考帧的输入概率(退火策略),迫使模型依赖文本指令;

· 最终阶段:完全移除参考帧,模型实现纯指令驱动编辑。

训练目标​:采用流匹配(FlowMatching)损失

image.png

5.研究成果

研究通过定量比较、用户研究和定性分析验证了方法的有效性。

定量结果​:在CLIP-T(指令跟随)、CLIP-F(时间一致性)和 VLM 评分等自动指标上,本文提出的 Editto 模型均显著优于现有方法。用户研究也显示,在指令跟随准确性、时间一致性和整体质量方面,Editto 获得了最高的用户偏好。

定性结果​:如图5 所示,对于复杂的风格化转换和局部属性编辑,Editto 能生成视觉上更优、更符合指令要求且时间一致性更好的结果,而基线方法则容易出现模糊、不一致或编辑不准确的问题。

附加结果与消融研究​:研究还展示了模型从合成数据到真实领域的转换能力,并且通过消融实验证实了大规模训练数据和模态课程学习策略对于模型性能提升的关键作用。
image.png

6.总结与展望

l 本文通过Ditto 框架系统性解决了指令驱动视频编辑的“数据稀缺”问题:该框架融合图像编辑先验与高效视频生成,结合自动化质量控制,实现“低成本-高质量-可扩展”的数据生产,最终构建 Ditto-1M 数据集;

l 基于Ditto-1M 训练的 Editto 模型,通过模态课程学习桥接视觉与文本模态,在指令跟随、时间一致性、视觉质量上建立新 SOTA,验证了“高质量数据 + 合理训练策略”对视频编辑任务的核心价值。

【02 论文原文阅读】

您可以跳转到Lab4AI 平台上去阅读论文原文。

Lab4AI大模型实验室已经提供​​论文​,阅读链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq&_bky_dittoid=03e89d3d4c294a38a33e46328ce25993
文末点击阅读原文​,即可跳转至对应论文页面。目前,论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800 算力作为奖励。
image.png
·Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
·支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
·论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
image.png
本文由AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业设计springboot音乐畅听系统 基于Spring Boot框架的智能音乐播放系统编写 Spring Boot驱动的音乐在线欣赏平台构建

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

vue2 封装组件使用 v-mode【el-radio,el-input】

vue2 封装组件使用 v-mode【el-radio,el-input】v-model 在组件上使用,只能更改一个值。 sycn [singk] 1、在组件上使用 v-model ,父组件 v-model ,子组件接收value , $emit(value,xxxx)2、sync [singk]. 父组件 …

MathType7下载包安装教程2025最新下载+安装+汉化激活(附安装包,超详细)

目录前言一、MathType7 下载二、MathType7 软件介绍三、MathType7 安装 + 汉化激活全步骤(附细节提示) 前言 本文是 2025 年最新 MathType7 安装全流程教程,从MathType7 下载、安装到汉化激活、Word 配置都讲透,还…

P11993 [JOIST 2025] 迁移计划 题解

Description JOI 王国由编号从 \(1\) 到 \(N\) 的 \(N\) 个城市组成。这些城市通过 \(N − 1\) 条单向道路连接。具体来说,对于每个 \(i = 2, 3, \ldots, N\),存在一条从城市 \(i\) 通向城市 \(P_i\) 的道路。此处保…

人工智能十大数学知识-线性代数 - 何苦

人工智能十大数学知识-线性代数人工智能中的线性代数核心知识(Linear Algebra for AI)- 线性代数 1. 向量(Vector)n维空间中的有向线段,是AI数据的“原子单元”,用于表示单个样本的特征(如“身高175cm、体重60k…

2025年土地报批技术服务品牌

文章摘要 随着国家基础设施建设加速,土地报批技术服务行业迎来快速发展期。2025年土地报批技术服务市场将更加专业化、规范化,优质服务商在技术实力、服务效率和资源整合方面优势明显。本文基于行业调研数据,为您提…

2025年土地报批技术服务品牌Top10排行榜

摘要 土地报批技术服务行业随着国家基础设施建设和国土空间规划政策的深入推进,市场需求持续增长,选择可靠的服务商成为项目成功的关键。本文基于2025年市场数据、用户口碑和行业专家评价,综合整理了土地报批技术服…

2025 圆木/方木/原木多片锯设备推荐榜:河北普悦机械源头厂家凭核心技术登顶,4家优质企业各展优势

一、推荐榜背景:多片锯成行业升级刚需 2025 年,建材加工、家具制造、木材加工等领域加速产能升级,多片锯因 “高效切割、精准分料” 的核心优势,成为降低生产能耗、提升加工效率的关键设备。本次推荐榜基于设备切割…

研发排查问题的利器:一款方法调用栈跟踪工具

导语 本文从日常值班问题排查痛点出发,分析方法复用的调用链路和上下文业务逻辑,通过思考分析,借助栈帧开发了一个方法调用栈的链式跟踪工具,便于展示一次请求的方法串行调用链,有助于快速定位代码来源和流量入口…

2025年多功能综合杆厂家排名前十推荐

摘要 多功能综合杆作为智能城市建设的核心基础设施,近年来行业发展迅速,集成照明、监控、通信、环境监测等多种功能,提升城市管理效率和市民生活品质。据行业报告显示,全球智能杆市场预计到2025年将达到150亿美元,…

PlantUML-EBNF语法学习

背景 一图胜千言。有时候用图表表达意图比较直观、容易理解。但是用一般画图工具比较麻烦,也不容易修改,所以用文本描述设计意图,然后自动呈现图表就是一种理想的方案。 本文用EBNF语法图描述了语法图的语法。 参考…

2025年度在线网站客服系统综合排行榜正式发布

在信息爆炸的今天,客户耐心正以秒计算。您的网站访客可能只因一个无人应答的咨询窗口便悄然离去。一个得力的在线客服系统,早已不再是简单的“沟通工具”,而是企业挽留潜在客户、提升服务体验、最终实现业绩转化的战…

JDD Oxygen智能零售论坛 | 《大模型时代的广告营销变革与实践》

核心观点 1. 通用大模型想解决营销领域问题需向垂类模型转型。 “全才”通用大模型难覆盖广告营销全流程,需升级为“懂营销”的垂直模型,实现从“知道”到“落地执行”的三维跨越。 2. 广告智能体破解传统投放门槛高…

常用Web 实时通信技术:原理+选型,一篇通关

在 Web 开发中,实时通信技术的核心目标是实现客户端(Browser)与服务器之间低延迟、双向 / 单向的动态数据交互,而非传统 HTTP 的 “请求 - 响应” 模式。以下是 Web 端最常用的实时通信技术,从概念、原理特点、适…

ERP和CRM、SRM、MES之间的关系,怎么理解?

我的一个创业的朋友最近来问我,ERP、CRM、SRM和MES这四个系统到底该如何配合?这是很多公司在推进数字化转型时,都会遇到一个问题,我们公司也不例外。 虽然它们各自有不同的职能,但往往会让人搞不清楚。有时候,企…

2025年市面上新加坡留学品牌、行业内公司及口碑产品推荐排行

摘要 随着全球教育一体化加速,新加坡留学市场在2025年呈现稳健增长态势,行业竞争加剧,品牌分化明显。本文基于行业数据和用户反馈,梳理前十名新加坡留学服务提供商,并附详细排名表单供参考,旨在帮助读者做出明智…

滥用static inline

结论先行你现在的写法namespace hzi {static inline Config config; // ← 注意 static }会让每个包含 config.hpp 的 .cpp 文件都拥有自己独立的一份 config 对象。 因此: – 它们在内存中地址不同; – 在一个 .c…

2025年市面上氟碳铝单板品牌、市场氟碳铝单板公司、国内氟碳铝单板生产厂家、2025年氟碳铝单板品牌、口碑好的氟碳铝单板产品综合评测

文章摘要 氟碳铝单板作为现代建筑外墙装饰的核心材料,近年来随着绿色建筑和城市化进程的加速,行业年复合增长率超过15%(数据来源:中国建筑材料联合会2024年报告)。本文基于市场调研和用户反馈,为您呈现2025年氟碳…

2025/10/25(补)

A 用时:1h 预期:100pts 实际:100pts 处理出每个点开始有多少个三元组,依次用二分确定 \((x,y,z)\)。 总结:做题时要集中注意力,越快做完越好。 B 用时:1h 预期:60pts 实际:40pts 贪心的加点,加入的点的贡献为…

第二十四篇

今天是10月27日,绝望星期一,今天又在尝试链接数据库进行开发,当然又失败了,难受