Index-AniSora模型论文速读:基于人工反馈的动漫视频生成

Aligning Anime Video Generation with Human Feedback

一、引言

论文开头指出,尽管视频生成模型不断涌现,但动漫视频生成面临动漫数据稀缺和运动模式异常的挑战,导致生成视频存在运动失真和闪烁伪影等问题,难以满足人类偏好。现有奖励模型主要针对现实世界视频,无法捕捉动漫的独特外观和一致性要求。为此,作者提出利用人类反馈对动漫视频生成进行对齐的流程,包括构建首个动漫视频多维奖励数据集、开发AnimeReward奖励模型,以及引入Gap-Aware Preference Optimization(GAPO)训练方法,在实验中展示这些方法对提升动漫视频质量的有效性。

二、研究背景与挑战

  1. 数据稀缺性 :动漫数据相较于现实世界数据更为稀缺,导致预训练的视频模型在生成动漫视频时倾向于输出更符合现实风格的内容,难以满足动漫视频的生成需求。

  2. 运动模式差异 :动漫视频的运动模式与现实视频不同,现有模型在处理动漫视频时会出现运动失真和闪烁伪影等问题,影响生成质量。

  3. 现有奖励模型局限性 :早期方法依赖图像奖励模型提供反馈信号,但忽视了视频中的时间因素,如运动动态和时间连贯性。后续研究采用视频评估系统,但这些评估指标通常较为客观,缺乏足够的区分能力来有效区分好坏视频,难以准确捕捉主观偏好。最近的研究收集大规模视频偏好数据集并训练视觉 - 语言模型作为视频奖励模型,但这些模型主要针对文本到视频(T2V)任务,由于领域差异,在评估动漫视频时与实际人类偏好存在偏差。

三、研究方法

(一)构建动漫视频奖励数据集

  1. 数据收集 :选择 5000 个带有动作标签的动漫视频,涵盖多种常见动作类别。使用 Qwen2-VL 对视频进行字幕标注,并提取视频的第三帧作为初始图像。基于这些提示和图像,利用 5 种先进的开源或闭源图像到视频生成模型生成动漫视频,与 5000 个真实视频一起构建 30000 个动漫视频数据集,用于奖励模型训练。此外,还构建了包含 6000 个动漫视频的验证集。

  2. 人工标注 :从视觉外观和视觉一致性两个方面对生成视频进行评估。视觉外观包括视觉流畅度、视觉运动和视觉吸引力;视觉一致性包括文本 - 视频一致性、图像 - 视频一致性和角色一致性。雇佣 6 名标注员对数据集进行评分,最终每个维度的偏好分数取所有标注员的平均值。

(二)开发 AnimeReward 奖励模型

AnimeReward 是一个多维动漫奖励系统,专门用于学习动漫视频的人类偏好。它包含视觉外观和视觉一致性两个方面的六个维度,针对不同维度使用专门的视觉 - 语言模型进行训练,通过奖励分数回归来更好地拟合人类偏好。

  1. 视觉外观

    • 视觉流畅度 :微调基于 VLM 的模型的视觉编码器,并添加回归头,以学习人类对视频流畅度的偏好并识别动漫视频中的失真。

    • 视觉运动 :基于 ActionCLIP 框架训练运动评分模型,将动漫视频剪辑及其对应的运动字幕分为六个运动幅度级别,通过计算设计的运动提示与目标视频之间的相似性分数来得到运动分数。

    • 视觉吸引力 :从视频中提取关键帧,训练回归模型以学习人类美学标准,从而评估视频生成的基本质量。

  2. 视觉一致性

    • 文本 - 视频一致性 :微调视觉和文本编码器模块并添加回归头,使用动漫文本 - 视频对进行训练。

    • 图像 - 视频一致性 :在图像到视频设置中,使用视觉编码器和回归头计算生成视频与输入图像之间的风格一致性分数。

    • 角色一致性 :设计包括检测、分割和识别的系统流程,利用 GroundingDINO、SAM 和跟踪工具提取每个视频帧的角色掩码,微调基于 BLIP 的模型建立掩码与动漫 IP 角色之间的关联,通过计算生成角色特征与存储特征之间的余弦相似性来衡量角色一致性。

(三)引入 Gap-Aware Preference Optimization(GAPO)训练方法

  1. 直接偏好优化(DPO)的局限性 :DPO 只关注对每对偏好样本对的概率进行建模,忽略了胜利样本和失败样本之间的偏好差距。

  2. GAPO 的提出 :为了解决这一问题,GAPO 明确将偏好差距纳入优化过程。首先定义每个视频的奖励增益,对于每对偏好样本,使用胜利样本和失败样本的奖励增益之差作为差距因子,反馈到 DPO 损失函数中,从而放大具有较大偏好差距的样本对在训练中的影响,减少差异较小的样本对的影响,提高动漫视频对齐的效率,使模型更好地捕捉人类偏好差异。

四、实验

(一)实验设置

  1. 数据集 :使用开源的 CogVideoX-5B 模型作为对齐实验的基线模型。按照论文中的数据收集策略,构建包含 2000 个原始动漫图像及其对应提示的初始训练集。基于这些数据,使用基线模型为每个数据实例生成 4 个动漫视频,并利用 AnimeReward 对所有生成视频进行评估和分配奖励分数,从每组四个视频中选择得分最高和最低的视频组成偏好对,形成包含 2000 个偏好样本对的训练数据。

  2. 训练设置 :在对齐实验中,微调所有变压器块以更好地使模型与人类偏好对齐。全局批量大小设置为 8,学习率为 5e − 6。DPO 超参数 β 为 5000,GAPO 超参数 α 为 2。所有实验在 8 个 A800 GPU 上进行,生成的视频为 49 帧、16 fps,分辨率为 480 × 720。

  3. 评估指标 :采用自动化评估和人工评估两种方法。自动化评估包括 VBenchI2V、VideoScore 和 AnimeReward 三种方法;人工评估则由三名标注员对样本进行评估,根据多数意见确定视频优劣。

(二)实验结果

  1. 定量结果 :在 VBench-I2V 评估中,作者提出的偏好对齐方法总分最高,几乎在所有指标上都优于基线模型,并且在大多数情况下超过 SFT 模型,尤其在 “I2V 主体” 和 “主体一致性” 方面表现出显著改进,表明在保持动漫角色一致性方面能力更强。在 AnimeReward 评估中,除视觉运动外,作者的方法在所有指标上均有显著提升,与人类偏好在视觉外观和一致性方面更好地对齐。对于 VideoScore,对齐策略在三个维度上超越基线和 SFT 模型,显示出更好的时间稳定性和内容保真度。尽管在 “动态程度”(即 “视觉运动”)方面表现不如基线和 SFT 方法,但作者认为动态程度较高的视频更容易出现失真和伪影,从而降低整体视觉质量并影响人类偏好评分。

  2. 定性结果 :从图 3 的视觉比较结果可以看出,与基线模型和 SFT 模型相比,作者的方法显著减少了生成视频中的失真和伪影,实现了更高的运动稳定性和角色一致性,视觉质量大大提高。此外,作者的方法在文本一致性方面也优于其他方法,例如在第二个案例中,提示说明一个穿紫色长袍的老年男子正在安慰一个年轻男子,而基线和 SFT 方法生成的结果中老年男子看起来像是在威胁或恐吓年轻男子,年轻男子表现出害怕的表情,而作者的方法正确地生成了老年男子拍年轻男子肩膀以示安慰的画面。

  3. 消融实验

    • GAPO 与 DPO 的比较 :在相同的实验设置下,GAPO 在所有三个评估指标上均优于 DPO,表明 GAPO 可以提高偏好对齐效率,并引导模型生成更符合人类偏好的动漫视频。

    • 奖励模型比较 :使用 VideoScore 作为奖励模型进行实验,结果显示使用 AnimeReward 训练的模型在两个评估标准上优于 VideoScore,进一步验证了 AnimeReward 能为动漫视频提供更准确的人类偏好评馈。

    • 奖励分数的不同权重策略比较 :除了平均加权策略外,还评估了其他几种权重分配方案。结果表明平均加权策略在 VBench-I2V 和 AR 上得分最高,而增加运动分数权重的策略在 VS 上表现最好,但在其他维度上的表现不如平均加权策略。视觉比较结果也显示,平均加权策略在完成相应动作的同时保持了视觉美学和流畅的运动,而增加运动权重的策略可能导致视频中出现奇怪的伪影和角色面部严重失真。

五、结论

论文提出了一种名为 AnimeReward 的函数,通过精心设计的六个感知维度对动漫视频生成进行全面评估。借助 AnimeReward,构建了一种名为 Gap-Aware Preference Optimization(GAPO)的新颖训练技术,将偏好差距明确纳入优化过程,以进一步提升对齐性能。实验结果表明,仅使用基线模型生成的数据,作者提出的对齐流程显著提升了动漫生成的质量,更好地与人类偏好对齐。

六、核心技术表格汇总

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第 4 章:网络与总线——CAN / Ethernet / USB-OTG

本章目标: 深入理解三种关键通信总线(CAN、Ethernet、USB-OTG)的协议架构、硬件接口与软件驱动 掌握 STM32(或同类 MCU)中各总线的寄存器配置、中断/DMA 驱动框架 通过实战案例,实现基于 CAN 总线的节点通信、基于 Ethernet 的 TCP/IP 通信,以及基于 USB-OTG 的虚拟串口…

数据结构-DAY05

一、栈的概念 1.栈是限定仅在表尾进行插入和删除操作的线性表。先进后出、后进先出 栈顶:允许操作的一端 栈底:不允许操作的一端入栈,出栈。 栈分为:顺序栈 链式栈 2.栈结构是在堆区创建的 3.优先级就是通过栈来解决的 先进后出…

leetcode 153. Find Minimum in Rotated Sorted Array

题目描述 分析 可以发现一个规律: 假如整个数组最后一个元素是x。 最小值左侧(不含最小值自己)的元素全部大于x。 最小值右侧(包含最小值自己,不包含x)的元素全部小于x。 如果整个数组是有序的&#x…

如何在 AOSP 中判断一个源文件属于哪个模块(以 CameraService 为例)

如何在 AOSP 中判断一个源文件属于哪个模块(以 CameraService 为例) 在 AOSP 开发中,经常需要修改底层 C 代码(如 CameraService.cpp),但很多人会遇到一个问题: 我修改了某个 .cpp 文件&#x…

云原生主要架构模式

云原生(Cloud Native)是一种利用云计算的优势来构建和运行可扩展、弹性和高效应用程序的方法。它不仅仅是技术的集合,更是一种架构和设计理念。本文将围绕你提出的几部分,深入探讨云原生主要的架构模式,帮助你理解如何利用这些模式构建现代化的应用。 1. 服务化架构模式(…

深入理解MySQL结构与执行流程

标题:深入理解MySQL结构与执行流程 MySQL以其开源、灵活性和强大的功能成为了最受欢迎的关系型数据库管理系统之一。无论是初创公司还是大型企业,都广泛使用MySQL来存储和管理数据。为了帮助大家更好地理解和优化MySQL的性能,本文将详细讲解…

Python web 开发 Flask HTTP 服务

Flask 是一个轻量级的 Web 应用框架,它基于 Python 编写,特别适合构建简单的 Web 应用和 RESTful API。Flask 的设计理念是提供尽可能少的约定和配置,从而让开发者能够灵活地构建自己的 Web 应用。 https://andi.cn/page/622189.html

BMVC2023 | 多样化高层特征以提升对抗迁移性

Diversifying the High-level Features for better Adversarial Transferability 摘要-Abstract引言-Introduction相关工作-Related Work方法-Methodology实验-Experiments结论-Conclusion 论文链接 GitHub链接 本文 “Diversifying the High-level Features for better Adve…

虚幻引擎5-Unreal Engine笔记之摄像头camera

虚幻引擎5-Unreal Engine笔记之摄像头camera code review! 目录 第一部分:摄像头的基础概念 1.1 UE5 中摄像头的定义与作用1.2 UE5 中摄像头的类型与分类 第二部分:摄像头的代码结构与分类 2.1 摄像头是类还是组件?2.2 组件的本质&#xff…

【大数据】MapReduce 编程-- PageRank--网页排名算法,用于衡量网页“重要性”-排序网页

PageRank 是 Google 创始人拉里佩奇(Larry Page)和谢尔盖布林(Sergey Brin)在 1998 年提出的一种网页排名算法,用于衡量网页“重要性”的一种方式。它是搜索引擎中用于排序网页的一种基础算法 一个网页越是被其他重要…

React Flow 数据持久化:Django 后端存储与加载的最佳实践(含详细代码解析)

在构建 React Flow 应用时,前端呈现的节点与连线构成的可视化流程只是冰山一角,其背后的数据持久化与灵活调取才是确保应用稳定运行、支持用户数据回溯与协作的关键。因此,后端存储与加载 React Flow 信息的环节,就如同整个应用的…

深度学习中的归一化:提升模型性能的关键因素

📌 友情提示: 本文内容由银河易创AI(https://ai.eaigx.com)创作平台的gpt-4-turbo模型辅助完成,旨在提供技术参考与灵感启发。文中观点或代码示例需结合实际情况验证,建议读者通过官方文档或实践进一步确认…

Pandas:Series和DataFrame的概念、常用属性和方法

本文目录: 一、Series和Dataframe的概念二、创建Series对象三、创建Dataframe对象(一)Series1.Series的常用属性总结如下:2.Series的常用方法总结如下: (二)Dataframe1.Dataframe的常用属性2.Da…

数据中心Overlay解决方案

文档围绕数据中心 Overlay 解决方案展开,指出数据中心向大集中、虚拟化、云业务演进,传统架构存在网络规划复杂、弹性不足、业务扩展受限等问题。Overlay 网络在物理网络上构建虚拟网络,实现名址分离、网络与物理解耦,支持业务灵活部署。方案采用VXLAN 技术(如 SDN 控制模…

SpringBoot 项目实现操作日志的记录(使用 AOP 注解模式)

本文是博主在做关于如何记录用户操作日志时做的记录,常见的项目中难免存在一些需要记录重要日志的部分,例如权限和角色设定,重要数据的操作等部分。 博主使用 Spring 中的 AOP 功能,结合注解的方式,对用户操作过的一些…

以太联 - Intellinet 闪耀台北 SecuTech 国际安全科技应用博览会

2025 年 5 月 7 日至 9 日,台北 SecuTech 国际安全科技应用博览会现场热闹非凡,以太联 - Intellinet 携旗下前沿产品与解决方案精彩亮相,成为展会上一道亮丽的风景线,吸引了众多业内人士的目光,收获了广泛关注与高度认…

【华为鸿蒙电脑】首款鸿蒙电脑发布:MateBook Fold 非凡大师 MateBook Pro,擎云星河计划启动

文章目录 前言一、HUAWEI MateBook Fold 非凡大师(一)非凡设计(二)非凡显示(三)非凡科技(四)非凡系统(五)非凡体验 二、HUAWEI MateBook Pro三、预热&#xf…

OSA快速上手

我第一次接触OSA,第一感觉就是庞杂,相关的文档和资料基本都是英文,运行下示例场景,效果和效率确实很香。本文仅针对初次接触OSA、望而却步的朋友们进行快速运用的引导。 首先,找个安装包,导入项目后&#…

RK3568下编译解决未定义符号而报错终止链接

现象:我从rk3568板子上导出来了一个 libsqlite3.so 然后编译连接就会报这样的错误 解决办法有多种,以前我遇到这种情况,我都是使用sqlite3源码从新编译一份使用,并替换到板子上。 现在我是用另一种方法:增加编译参数 …

LSTM-Attention混合模型:美债危机与黄金对冲效率研究

摘要:本文依托多维度量化分析框架,结合自然语言处理(NLP)技术对地缘文本的情绪挖掘,构建包含宏观因子、风险溢价因子及技术面因子的三阶定价模型,对当前黄金市场的波动特征进行归因分析。实证结果显示&…