简介
FantasyTalking 的核心目标是从单一静态图像、音频(以及可选的文本提示)生成高保真、连贯一致的说话肖像。研究表明,现有方法在生成可动画化头像时面临多重挑战,包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题,通过先进的 AI 技术实现更高质量的生成。
挑战与动机
现有方法往往在面部表情的细腻度和身体动作的自然性上表现不佳,尤其是在动态背景的整合上。
FantasyTalking 的动机是提供一个统一的框架,能够生成不仅限于唇部动作的动态肖像,包括表情和身体动作的控制。
模型架构
FantasyTalking 的技术结构基于先进的机器学习模型和算法,具体包括以下核心组件:
核心模型
基于预训练的视频扩散变换器模型 Wan2.1-I2V-14B-720P,用于生成高保真的视频内容。
音频编码器使用 Wav2Vec2-base-960h 处理音频输入,确保音频与视频的同步性。
音视频对齐策略
-
双阶段训练
- 第一阶段(片段级):通过对整个场景(包括头像、背景对象和背景)进行音频驱动的动态对齐,实现全局动作的连贯性。
- 第二阶段(帧级):使用唇形追踪掩码(lip-tracing mask)精细调整唇部动作,以确保与音频信号的精确同步。
-
这一策略确保了生成视频的整体流畅性和音频-视频的精确匹配。
身份保留:
-
采用面部专注的交叉注意力模块(facial-focused cross-attention module),替代传统的参考网络。
-
这一模块在保持面部一致性的同时,不限制动作的灵活性,避免了身份信息丢失的问题。
动作控制
-
集成了动作强度调制模块(motion intensity modulation module),允许用户显式控制面部表情和身体动作的强度。
-
这一模块支持生成更动态的肖像,例如通过调整参数可以控制手势、头部转动等动作。
性能
在单个 A100 GPU 上(512x512 分辨率,81 帧):
-
使用 torch.bfloat16 时,速度为 15.5s/帧,VRAM 占用 40G。
-
通过限制持久参数数量,可以降低 VRAM 占用至 5G,但速度降低至 42.6s/帧。
以下是性能对比表:
性能对比
看看效果
相关文献
github项目地址:https://github.com/Fantasy-AMAP/fantasy-talking
官方地址:https://fantasy-amap.github.io/fantasy-talking/
在线体验地址:https://huggingface.co/spaces/acvlab/FantasyTalking
技术报告:https://arxiv.org/pdf/2504.04842