宁波网站制作工作室wordpress 网页很慢

diannao/2026/1/17 18:25:12/文章来源:
宁波网站制作工作室,wordpress 网页很慢,自建网站h5,深圳十大国际外贸公司最近受到商汤“复活”汤晓鸥的视频刺激#xff0c;大大的amazing#xff01;没看过的小伙伴可以自行百度#xff0c;看了不研究一下【数字人】技术#xff0c;都要跟时代脱轨了#xff0c;那就以HyperLips为开篇吧。 目录 #x1f34e;#x1f34e;1.摘要 #x1f3… 最近受到商汤“复活”汤晓鸥的视频刺激大大的amazing没看过的小伙伴可以自行百度看了不研究一下【数字人】技术都要跟时代脱轨了那就以HyperLips为开篇吧。 目录 1.摘要  2.网络结构 2.1输入输出 2.2网络框架  2.3定量比较 2.4用户研究 2.5效果对比 3.源码实现 3.1环境搭建 3.2下载模型 3.3模型推理 原视频 新视频 3.4模型训练 3.4.1训练数据 3.4.2数据预处理 3.4.3训练lipsync 3.4.4训练hyperlips base 3.4.5 生成checkpoints_hyperlips_base视频 3.4.7预处理高分辨率数据 3.4.8训练高分辨率模型 整理不易欢迎一键三连 送你们一条美丽的--分割线-- 项目project 论文paper 代码code  1.摘要  摘要会说话的面孔生成在虚拟数字人领域具有广泛的潜在应用。 然而在确保唇形同步的同时渲染高保真面部视频仍然是现有音频驱动的说话人脸生成方法的一个挑战。 为了解决这个问题我们提出了 HyperLips这是一个两阶段框架由用于控制嘴唇的超网络和用于渲染高保真面部的高分辨率解码器组成。 在第一阶段我们构建一个基础人脸生成网络该网络使用超网络来控制音频上的视觉人脸信息的编码潜在代码。 首先FaceEncoder通过提取特征来获得潜在编码然后HyperConv其权重参数由 HyperNet 以音频特征作为输入更新将修改潜在代码以将嘴唇运动与音频同步。 最后FaceDecoder 将修改并同步的潜在代码解码为视觉人脸内容。 在第二阶段我们通过高分辨率解码器获得更高质量的人脸视频。 为了进一步提高面部生成的质量我们使用第一阶段生成的面部图像和检测到的草图作为输入来训练高分辨率解码器 HRDecoder。 大量的定量和定性实验表明我们的方法优于最先进的工作具有更真实、高保真度和唇形同步。 Abstract—Talking face generation has a wide range of potential applications in the field of virtual digital humans. However,rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First,FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input. Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization. 2.网络结构 2.1输入输出 网络输入视频音频网络输出唇形更改后的视频 给定源视频左上和驱动音频右上的视觉人脸信息我们的方法能够渲染和生成更真实、高保真和口型同步的视频下。查看放大的补丁我们的方法可以看到牙齿等细节。 2.2网络框架  我们的框架的概述如上所示。我们的目标是在给定音频和视频序列的情况下通过逐帧在输入视频的下半部分实现被遮挡的面部生成具有同步嘴唇运动的高保真说话面部视频。我们提出的方法由两个阶段组成基础脸部生成和高保真度渲染。在基础人脸生成中我们设计了一个超网络以音频特征作为输入来控制视觉信息的编码和解码以获得基础人脸图像。在高保真渲染中我们使用第一阶段训练的网络中的人脸数据和相应的人脸草图来训练 HRDecoder 网络以增强基础人脸。 2.3定量比较 表1和表2分别显示了LRS2和MEAD-Neutral数据集的定量比较。结果表明无论是我们的 HyperLips-Base 还是我们的 HyperLips-HR生成的人脸在 PSNR、SSIM 和 LMD 指标方面都明显优于其他方法。我们的 HyperLips-HR 在 PSNR 和 SSIM 方面明显优于我们的 HyperLips-Base这表明我们的 HRDecoder 增强了高保真人脸渲染。然而LMD指数并没有明显的增加这表明HRDecoder对改善唇同步没有帮助。对于LSE-C和LSE-DWav2Lip表现出更好的结果甚至超越了groundtruth。它只是证明了他们的lip-sync结果与groundtruth几乎相当而不是更好。虽然LSE-C和LSE-D是我们的方法并不是最好的但我们在 LMD 指标上表现更好LMD 指标是另一个同步指标用于测量视觉域中的对应性。 2.4用户研究 用户研究。可以看出我们的结果在视频质量和口型同步方面优于其他方法。 2.5效果对比 Visual_Comparison 3.源码实现 3.1环境搭建 Python 3.8.16 torch 1.10.1cu113 torchvision 0.11.2cu113 ffmpeg#其他基础库可以一次性通过一下命令安装 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple 3.2下载模型 模型下载链接百度网盘 并将下载好的模型文件放置./checkpoints/ 目录下。 3.3模型推理 首先修改inference.py文件修改你要输入的原始视频文件路径和新的语音文件路径。inference.py如下所示。 from HYPERLIPS import Hyperlips import argparse import os os.environ[CUDA_VISIBLE_DEVICES] 1parser argparse.ArgumentParser(descriptionInference code to lip-sync videos in the wild using HyperLipsBase or HyperLipsHR models) parser.add_argument(--checkpoint_path_BASE, typestr,helpName of saved HyperLipsBase checkpoint to load weights from, defaultcheckpoints/hyperlipsbase_multi.pth) parser.add_argument(--checkpoint_path_HR, typestr,helpName of saved HyperLipsHR checkpoint to load weights from, defaultNone)#checkpoints/hyperlipshr_mead_128.pth parser.add_argument(--face, typestr,helpFilepath of video/image that contains faces to use, defaulttest/video2/video2.mp4) parser.add_argument(--audio, typestr,helpFilepath of video/audio file to use as raw audio source, defaulttest/video2/obam-english.wav) parser.add_argument(--outfile, typestr, helpVideo path to save result. See default for an e.g.,defaultresult/result_video2-obma-en.mp4) parser.add_argument(--pads, nargs, typeint, default[0, 10, 0, 0],helpPadding (top, bottom, left, right). Please adjust to include chin at least) parser.add_argument(--filter_window, defaultNone, typeint,helpreal window is 2*T1) parser.add_argument(--hyper_batch_size, typeint, helpBatch size for hyperlips model(s), default128) parser.add_argument(--resize_factor, default1, typeint,helpReduce the resolution by this factor. Sometimes, best results are obtained at 480p or 720p) parser.add_argument(--img_size, default128, typeint) parser.add_argument(--segmentation_path, typestr,helpName of saved checkpoint of segmentation network, defaultcheckpoints/face_segmentation.pth) parser.add_argument(--face_enhancement_path, typestr,helpName of saved checkpoint of segmentation network, defaultcheckpoints/GFPGANv1.3.pth)#checkpoints/GFPGANv1.3.pth parser.add_argument(--no_faceenhance, defaultFalse, actionstore_true,helpPrevent using face enhancement) parser.add_argument(--gpu_id, typefloat, helpgpu id (default: 0),default0, requiredFalse) args parser.parse_args()def inference_single():Hyperlips_executor Hyperlips(checkpoint_path_BASEargs.checkpoint_path_BASE,checkpoint_path_HRargs.checkpoint_path_HR,segmentation_pathargs.segmentation_path,face_enhancement_path args.face_enhancement_path,gpu_id args.gpu_id,window args.filter_window,hyper_batch_sizeargs.hyper_batch_size,img_size args.img_size,resize_factor args.resize_factor,pad args.pads)Hyperlips_executor._HyperlipsLoadModels()Hyperlips_executor._HyperlipsInference(args.face,args.audio,args.outfile)if __name__ __main__:inference_single()checkpoint_path_BASE基础模型地址 checkpoint_path_HR高分辨率模型地址 face源视频地址目前支持MP4格式 audio源音频地址目前支持WAV格式 outfile输出视频地址 其他参数保持默认即可包括面部增强模型地址、面部分割模型地址等。 举例让原视频的奥巴马说出以下音频音频内容如下 Hello everyone, I am Obama and my wish is world peace 这样将这个新音频和源奥巴马的视频作为输入输出选择一个新的MP4地址即可开始进行模型预测推理了。 推理成功 原视频 新视频 目前试用的效果中英文语音比中文语音的模拟效果好很多可能训练样本大多是英文的吧但是英文语音模拟出来的后半段口型变化不是很大的情况下视频看起来还是有点假的感兴趣的小伙伴可以自己多做几组语音对比一下。 3.4模型训练 3.4.1训练数据 本项目使用的是MEAD数据集下载地址在MEAD数据集。 可以看到视频的来源主要是BBC频道和TED演讲视频这也就不难理解中文模拟效果不好的了。 下载后的数据组织格式为 data_root (datasets) ├── name of dataset(MEAD) | ├── videos ending with(.mp4) 3.4.2数据预处理 从视频文件中提取人脸图像和原始音频并生成文件列表通过运行以下命令获取 train.txt 和 val.txt 命令 python preprocess.py --origin_data_rootdatasets/MEAD --clip_flag0 --Functionbase --hyperlips_train_datasetTrain_data 3.4.3训练lipsync 数据准备好之后就可以进行模型训练了首先训练lipsync命令如下 python color_syncnet_trainv3.py --data_rootTrain_data/imgs --checkpoint_dircheckpoints_lipsync_expert 注意预训练模型pretrain_sync_expert.pth要提前存放于./checkpoints目录下。 3.4.4训练hyperlips base 训练hyperlips base模型的命令如下 python Train_hyperlipsBase.py --data_rootTrain_data/imgs --checkpoint_dircheckpoints_hyperlips_base --syncnet_checkpoint_pathcheckpoints/pretrain_sync_expert.pth 同样预训练模型pretrain_sync_expert.pth要提前存放于./checkpoints目录下。 3.4.5 生成checkpoints_hyperlips_base视频 基于训练的checkpoints_hyperlips_base模型进行视频推理生成命令如下 python Gen_hyperlipsbase_videos.py --checkpoint_path_BASEcheckpoints_hyperlips_base/xxxxxxxxx.pth --videodatasets --outfilehyperlips_base_results 3.4.7预处理高分辨率数据 从原始视频中提取图像、草图和唇部蒙版并通过运行以下命令从 hyperlips 基础视频生成的视频中提取图像和草图与之前不同的是这次提取的信息更细节了。 命令如下 python preprocess.py --origin_data_rootdatasets/MEAD --FunctionHR --hyperlips_train_datasetTrain_data --hyperlipsbase_video_roothyperlips_base_results 3.4.8训练高分辨率模型 基于高分辨率面部、唇部等高分辨率信息其中img_size的尺寸可以自由调整为256或512。 python Train_hyperlipsHR.py -hyperlips_trian_datasetTrain_data/HR_Train_Dateset --checkpoint_dircheckpoints_hyperlips_HR --batch_size28 --img_size128 至此就大功告成了 HyperLips工程整体还是比较完整和规范的复现起来也比较友好有问题欢迎评论区交流本人尝试复现了其他几个数字人的工程一言难尽啊。。。 整理不易欢迎一键三连 送你们一条美丽的--分割线-- ⛵⛵⭐⭐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/90989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wordpress实现专题手机网站seo免费软件

使用ros带的rosversion命令即可查看自己的ros版本: rosversion -d

哈尔滨建站免费模板怎么做一个购物平台

Linux的组成部分是什么? Linux 是一个开源的操作系统内核,它是一个底层的软件,可以作为操作系统的核心来运行。除了内核之外,Linux 操作系统通常还包括以下组成部分: 1. Shell:Shell 是用户与操作系统进行交…

wordpress关闭多站点贵州毕节建设局网站官网

跟着施磊老师做C项目,施磊老师_腾讯课堂 (qq.com) 一、基于muduo网络库开发服务器程序 组合TcpServer对象创建EventLoop事件循环对象的指针明确TcpServer构造函数需要什么参数,输出ChatServer的构造函数在当前服务器类的构造函数当中,注册处理连接的回调函数和处理…

国际网站 建设小程序商店怎么注销

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

电商网站 支付宝接口注册代理公司

线程构造器结构 1.线程中的构造器可以使用很多参数 public thread():分配一个新的线程对象public Thread(String name):分配一个指定名字的线程对象public Thread(Runnable target):指定创建线程的目标对象,它实现了Runnable接口…

优秀电子商务网站免费空间清理软件

软件介绍 QGIS(Quantum GIS)是一款免费、开源、跨平台的地理信息系统(GIS)软件,适用于Unix平台、Windows和MacOS。提供了强大且用户友好的功能,使其成为地理信息处理领域的热门选择。 功能特点 1.空间数据管…

公众号发布的文章是wordpressseo高清视频教程

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 一.SSL-VPN概述 SLL VPN是一种基于HTTPS(即支持SSL的HTTP协议)的远程安全接入技术。它充分利用了SSL协议提供的基于证书的身份认证、数据加密和消息完整性验证机制&#…

青岛网站建设公司怎么样搭建网站费用

1.字符串的长度 // 字符串常用的操作 let str1 "qwasaertrayuasdf"; let str2 "asdfzcxfv"; // 1.字符串的长度 console.log(str1.length);2. charAt() : 返回指定索引位置的字符 // 字符串常用的操作 let str1 "qwasaertrayuasdf"; let str2…

公司门户网站建设品牌推广策略有哪几种

🎥 屿小夏 : 个人主页 🔥个人专栏 : MySQL从入门到进阶 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. 约束概述二. 约束演示三. 外键约束3.1 介绍3.2 语法3.3 删除/更新行为 &…

网文网站开发方案中国建设银行官网站保本理财

主要实现了两个小游戏,飞机大战和冰火人历险记,首先用Funcode生成地图文件和VS工程,然后进行编程 头文件 CommonAPI.h #ifndef _COMMON_API_H_ #define _COMMON_API_H_ // #include <windows.h>//===============================

p2p贷款网站开发app系统制作开发

要做到单井的分采分注&#xff0c;首先必须有一种井下工具将各油层分开。封隔器就是下人套管内&#xff0c;利用其弹性密封元件的变形来封隔油、气、水层的一种最重要的井下工具。封隔器接在油管柱的适当部位或下部&#xff0c;这种带封隔器和其他井下工具的油管柱叫做井下工艺…

如何申请网站优化工作找人做网赌网站需要多少钱

随着工业4.0的深入推进和智能制造的快速发展&#xff0c;复合机器人作为一种集成移动机器人和工业机器人功能的先进设备&#xff0c;正逐步成为工业自动化领域的新宠。特别是在磁钢上下料的应用中&#xff0c;复合机器人以其高度的灵活性和操作效率&#xff0c;展现了显著的优势…

自己做网站难吗安卓从网站获取视频怎么做

日前&#xff0c;据路透社报道&#xff0c;全球顶级零部件供应商博世正在位于德国东部的德累斯顿市兴建半导体工厂&#xff0c;总投资预计达10亿欧元(约合11亿美元)。据悉&#xff0c;此举凸显了博世对自动驾驶汽车以及工业物联网方向的双重布局。 据雷锋网(公众号&#xff1a;…

个人备案网站可以做淘宝客wordpress图片粘贴插件

下图是上海某校的新学期开学寄语&#xff1a;天将降大任于斯人也&#xff0c;必先删其微博&#xff0c;卸其 QQ&#xff0c;封其电脑&#xff0c;夺其手机&#xff0c;收其 ipad&#xff0c;断其 wifi&#xff0c;使其百无聊赖&#xff0c;然后&#xff0c;净面、理发、整衣&am…

如何构建个人网站深圳注册公司补贴政策

我已经写了很多有关InterruptedException和中断线程的文章 。 简而言之&#xff0c;如果您没有Future.cancel()调用Future.cancel()那么Future将终止待处理的get() &#xff0c;但还将尝试中断基础线程。 这是一个非常重要的功能&#xff0c;可以更好地利用线程池。 我还写信总…

国家城乡与住房建设部网站wordpress删除插件ftp

DaVinci是DSP和ARM 双核架构的SOC芯片。对芯片与外界的交互通过ARM端的Montavista Linux和相关驱动与应用程序来管理&#xff0c; DSP端只处理编解码相关的算法。DSP和ARM之间的通讯和交互是通过引擎(Engine)和服务器(Server)来完成的。1. 编解码引擎(Codec Engine) a. 核心引…

肯德基的网站建设wordpress 集群部署

介绍 顶顶通呼叫中心中间件机器人压力测试(mod_cit基于FreeSWITCH) 一、配置acl.conf 打开ccadmin-》点击配置文件-》点击acl.conf-》我这里是已经配置好了的&#xff0c;这里的192.168.31.145是我自己的内网IP&#xff0c;你们还需要自行修改 二、配置线路 打开ccadmin-&g…

君隆网站建设桂林哪里做网站

此篇是1-4 《半导体》的会和处啦&#xff0c;我们有了协议库&#xff0c;也有了通讯库&#xff0c;这不得快乐的玩一把~ 一、先创建一个从站&#xff0c;也就是我们的Equipment端 QT - guiCONFIG c11 console CONFIG - app_bundle CONFIG no_debug_release # 不会生…

网站服务器自己搭建网页设计入门基础知识

项目应用场景 面向自动驾驶场景的车道线检测场景&#xff0c;项目的特点是能够达到实时的车道线检测 项目效果&#xff1a; 项目细节 > 具体参见项目 README.md (1) 安装依赖 pip3 install -r requirements.txt (2) 测试图片 python tools/test_lanenet.py --weights_pat…

网站news怎么做旅游网页设计说明书

使用System.out.println()来调试.但是用这种方式开发项目部署到生产环境,会因为众多的控制台输出降低应用的性能.这时候Log4J就成为可平衡开发和部署应用的利器了. 使用指定的类XXX初始化日志对象&#xff0c;方便在日志输出的时候&#xff0c;可以打印出日志信息所属的类。 …