阿里联合北大开源数字人项目FantasyTalking,输出内容更加动态化~

简介

在这里插入图片描述

FantasyTalking 的核心目标是从单一静态图像、音频(以及可选的文本提示)生成高保真、连贯一致的说话肖像。研究表明,现有方法在生成可动画化头像时面临多重挑战,包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题,通过先进的 AI 技术实现更高质量的生成。

挑战与动机

现有方法往往在面部表情的细腻度和身体动作的自然性上表现不佳,尤其是在动态背景的整合上。

FantasyTalking 的动机是提供一个统一的框架,能够生成不仅限于唇部动作的动态肖像,包括表情和身体动作的控制。

模型架构

在这里插入图片描述

FantasyTalking 的技术结构基于先进的机器学习模型和算法,具体包括以下核心组件:

核心模型

基于预训练的视频扩散变换器模型 Wan2.1-I2V-14B-720P,用于生成高保真的视频内容。

音频编码器使用 Wav2Vec2-base-960h 处理音频输入,确保音频与视频的同步性。

在这里插入图片描述

音视频对齐策略

在这里插入图片描述

  • 双阶段训练

    • 第一阶段(片段级):通过对整个场景(包括头像、背景对象和背景)进行音频驱动的动态对齐,实现全局动作的连贯性。
    • 第二阶段(帧级):使用唇形追踪掩码(lip-tracing mask)精细调整唇部动作,以确保与音频信号的精确同步。
  • 这一策略确保了生成视频的整体流畅性和音频-视频的精确匹配。

身份保留:

  • 采用面部专注的交叉注意力模块(facial-focused cross-attention module),替代传统的参考网络。

  • 这一模块在保持面部一致性的同时,不限制动作的灵活性,避免了身份信息丢失的问题。

动作控制

  • 集成了动作强度调制模块(motion intensity modulation module),允许用户显式控制面部表情和身体动作的强度。

  • 这一模块支持生成更动态的肖像,例如通过调整参数可以控制手势、头部转动等动作。

性能

在单个 A100 GPU 上(512x512 分辨率,81 帧):

  • 使用 torch.bfloat16 时,速度为 15.5s/帧,VRAM 占用 40G。

  • 通过限制持久参数数量,可以降低 VRAM 占用至 5G,但速度降低至 42.6s/帧。

以下是性能对比表:
在这里插入图片描述

性能对比

在这里插入图片描述

在这里插入图片描述

看看效果

相关文献

github项目地址:https://github.com/Fantasy-AMAP/fantasy-talking
官方地址:https://fantasy-amap.github.io/fantasy-talking/
在线体验地址:https://huggingface.co/spaces/acvlab/FantasyTalking
技术报告:https://arxiv.org/pdf/2504.04842

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/904534.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于nnom的多选择器

核心组件 元件类型目的接口STM32F103CB微控制器主处理单元-MPU60506 轴 IMU移动侦测I2C 接口W25Q64 系列闪存信号和配置存储SPI 系列按钮用户输入模式选择和激活GPIO (通用输出)搭载了LED用户反馈系统状态指示GPIO (通用输出)RT6…

Redis中6种缓存更新策略

Redis作为一款高性能的内存数据库,已经成为缓存层的首选解决方案。然而,使用缓存时最大的挑战在于保证缓存数据与底层数据源的一致性。缓存更新策略直接影响系统的性能、可靠性和数据一致性,选择合适的策略至关重要。 本文将介绍Redis中6种缓…

项目优先级频繁变动,如何应对?

项目优先级频繁变动是许多公司和团队在工作中常遇到的挑战。 这种情况通常由业务需求变化、市场压力或高层决策调整等因素引起,常常让团队成员感到困惑和不安。首先,制定明确的优先级管理框架是应对项目优先级变动的基础, 通过清晰的优先级排…

屏蔽力 | 在复杂世界中从内耗到成长的转变之道

注:本文为“屏蔽力”相关文章合辑。 略作重排,未全整理。 世上的事再复杂,不外乎这三种 原创 小鹿 读者 2022 年 12 月 02 日 18 : 27 甘肃 文 / 小鹿 在这世上,每天都有大事小事、琐事烦事。我们总为世事奔波忙碌,…

[数据处理] 3. 数据集读取

👋 你好!这里有实用干货与深度分享✨✨ 若有帮助,欢迎:​ 👍 点赞 | ⭐ 收藏 | 💬 评论 | ➕ 关注 ,解锁更多精彩!​ 📁 收藏专栏即可第一时间获取最新推送🔔…

IIS配置SSL

打开iis 如果搜不到iis,要先开 再搜就打得开了 cmd中找到本机ip 用http访问本机ip 把原本的http绑定删了 再用http访问本机ip就不行了 只能用https访问了

RabbitMQ的交换机

一、三种交换机模式 核心区别对比​​ ​​特性​​​​广播模式(Fanout)​​​​路由模式(Direct)​​​​主题模式(Topic)​​​​路由规则​​无条件复制到所有绑定队列精确匹配 Routing Key通配符匹配…

(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像的生成和编辑:综述

【本文为我在去年完成的综述,因某些原因未能及时投稿,但本文仍能为想要全面了解文本到图像的生成和编辑的学习者提供可靠的参考。目前本文已投稿 ACM Computing Surveys。 完整内容可在如下链接获取,或在 Q 群群文件获取。 中文版为论文初稿&…

MCU怎么运行深度学习模型

Gitee仓库 git clone https://gitee.com/banana-peel-x/freedom-learn.git项目场景: 解决面试时遗留的问题,面试官提了两个问题:1.单片机能跑深度学习的模型吗? 2.为什么FreeRTOS要采用SVC去触发第一个任务,只用Pend…

多模态学习(一)——从 Image-Text Pair 到 Instruction-Following 格式

前言 在多模态任务中(例如图像问答、图像描述等),为了使用指令微调(Instruction Tuning)提升多模态大模型的能力,我们需要构建成千上万条**指令跟随(instruction-following)**格式的…

MySQL基础关键_011_视图

目 录 一、说明 二、操作 1.创建视图 2.创建可替换视图 3.修改视图 4.删除视图 5.对视图内容的增、删、改 (1)增 (2)改 (3)删 一、说明 只能将 DQL 语句创建为视图;作用: …

『深夜_MySQL』数据库操作 字符集与检验规则

2.库的操作 2.1 创建数据库 语法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification [,create_specification]….]create_spcification:[DEFAULT] CHARACTER SET charset_nam[DEFAULT] COLLATE collation_name说明: 大写的表示关键字 …

Spark jdbc写入崖山等国产数据库失败问题

随着互联网、信息产业的大发展、以及地缘政治的变化,网络安全风险日益增长,网络安全关乎国家安全。因此很多的企业,开始了国产替代的脚步,从服务器芯片,操作系统,到数据库,中间件,逐步实现信息技术自主可控,规避外部技术制裁和风险。 就数据库而言,目前很多的国产数据…

数字化转型-4A架构之应用架构

系列文章 数字化转型-4A架构(业务架构、应用架构、数据架构、技术架构)数字化转型-4A架构之业务架构 前言 应用架构AA(Application Architecture)是规划支撑业务的核心系统与功能模块,实现端到端协同。 一、什么是应…

格雷狼优化算法`GWO 通过模拟和优化一个信号处理问题来最大化特定频率下的功率

这段代码是一个Python程序,它使用了多个科学计算库,包括`random`、`numpy`、`matplotlib.pyplot`、`scipy.signal`和`scipy.signal.windows`。程序的主要目的是通过模拟和优化一个信号处理问题来最大化特定频率下的功率。 4. **定义类`class_model`**: - 这个类包含了信号…

中级网络工程师知识点1

1.1000BASE-CX:铜缆,最大传输距离为25米 1000BASE-LX:传输距离可达3000米 1000BASE-ZX:超过10km 2.RSA加密算法的安全性依赖于大整数分解问题的困难性 3.网络信息系统的可靠性测度包括有效性,康毁性,生存性 4.VLAN技术所依据的协议是IEEE802.1q IEEE802.15标准是针…

2025年五一数学建模A题【支路车流量推测】原创论文讲解

大家好呀,从发布赛题一直到现在,总算完成了2025年五一数学建模A题【支路车流量推测】完整的成品论文。 给大家看一下目录吧: 摘 要: 一、问题重述 二.问题分析 2.1问题一 2.2问题二 2.3问题三 2.4问题四 2.5 …

性能优化实践:渲染性能优化

性能优化实践:渲染性能优化 在Flutter应用开发中,渲染性能直接影响用户体验。本文将从渲染流程分析入手,深入探讨Flutter渲染性能优化的关键技术和最佳实践。 一、Flutter渲染流程解析 1.1 渲染流水线 Flutter的渲染流水线主要包含以下几…

linux基础学习--linux磁盘与文件管理系统

linux磁盘与文件管理系统 1.认识linux系统 1.1 磁盘组成与分区的复习 首先了解磁盘的物理组成,主要有: 圆形的碟片(主要记录数据的部分)。机械手臂,与在机械手臂上的磁头(可擦写碟片上的内容)。主轴马达,可以转动碟片,让机械手臂的磁头在碟片上读写数据。 数据存储…

DIFY教程第五弹:科研论文翻译与SEO翻译应用

科研论文翻译 我可以在工作流案例中结合聊天大模型来实现翻译工具的功能,具体的设计如下 在开始节点中接收一个输入信息 content 然后在 LLM 模型中我们需要配置一个 CHAT 模型,这里选择了 DeepSeek-R1 64K 的聊天模型,注意需要在这里设置下…