百度联系电话巩义关键词优化推广

news/2025/9/23 17:14:51/文章来源:
百度联系电话,巩义关键词优化推广,企业做网站带来的好处,公司名字大全免费测吉凶视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而#xff0c;迭代去噪过程使得这类模型计算密集且耗时#xff0c;限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM#xff0c;这是一种允…视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而迭代去噪过程使得这类模型计算密集且耗时限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM这是一种允许在最少步骤内生成高保真视频的方法。AnimateLCM采用了一种解耦的一致性学习策略将图像生成先验和运动生成先验的蒸馏分开处理从而提高训练效率并增强生成的视觉质量。为了实现稳定扩散社区中即插即用适配器的组合以实现各种功能例如可控生成论文提出了一种有效策略无需特定教师模型即可适配现有适配器或从头开始训练适配器而不损害采样速度。 AnimateLCM在4个步骤内实现个性化扩散模型和适配器的动画化 方法 AnimateLCM的整体训练范式的高级概述 如Figure 2 所示AnimateLCM 由三个主要部分组成分别为训练范式、无教师适配策略和适配器训练设计。 左侧整体训练范式 这部分展示了如何训练视频生成模型以遵循一致性属性。AnimateLCM 的目标是让模型在生成视频时保持数据的一致性即使在仅有少量迭代步骤的情况下也能生成高质量的视频。这一过程涉及到以下几个关键组件 教师扩散模型作为训练过程中的参考提供了视频生成的基础。 CFG-Augmented ODE Solver无分类器引导增强的ODE求解器用于改善生成过程并提高结果的质量。 Self-Consistency自我一致性机制确保模型生成的数据在整个过程中保持一致。 EMA指数移动平均用于更新目标一致性模型以保持模型权重的平滑过渡。 右上角无教师适配策略 这一部分介绍了如何在没有教师模型的情况下训练适配器。在 AnimateLCM 中适配器是可插拔的模块可以为模型提供额外的功能例如控制视频生成的风格或内容。以下是无教师适配策略的关键点 One-step MCMC Approximation一步MCMC近似方法用于在没有教师模型指导的情况下估计得分从而进行一致性学习。 Teacher-Free Adaptation无需教师模型的适配过程允许模型自我学习并适应新的生成任务。 右下角适配器训练设计 这部分描述了从头开始训练图像到视频适配器或调整现有适配器以适应稳定扩散社区的设计。这包括 Multi-Res Encoder多分辨率编码器用于处理不同分辨率的输入图像。 Image-to-Video Adapters图像到视频适配器负责将图像内容转换为视频格式。 Community Adapters社区适配器如XX-Net或XX-Adapter等这些是稳定扩散社区中已经存在的适配器可以被进一步训练或调整以提高与 AnimateLCM 的兼容性。 扩散模型DMs通过迭代去噪过程逐步将高维高斯噪声转化为真实数据。在这类模型中通常预测的是给定样本上添加的噪声量即所谓的ϵ-预测型模型。这种模型的优势在于能够生成高质量的图像和视频但其缺点是生成过程计算量大速度慢。 为了解决这一问题作者提出了一致性模型CMs。与DMs不同CMs的目标是直接预测PF-ODEProbability Flow Ordinary Differential Equation轨迹的解x0。CMs致力于直接找到从噪声状态到数据状态的最短路径而不是逐步去噪从而有望显著提高生成速度。 在实现从DMs到CMs的转换中作者引入了一种新的参数化方法。这种方法中函数fθ被重新定义用以结合文本条件嵌入c。这允许模型在生成过程中考虑文本条件实现文本引导的图像或视频生成。例如给定文本描述“穿着礼服的男人的RAW面部特写肖像专业摄影刀锋跑者风格”模型能够根据这些条件生成相应的图像。此外作者还采用了无分类器引导增强的ODE求解器这种求解器利用无分类器引导Classifier-free GuidanceCFG的概念通过增强的ODE求解过程来提高生成质量。CFG是一种在扩散模型中广泛使用的技术它可以帮助模型在生成过程中更好地遵循数据分布从而提高生成结果的质量和多样性。 为了提高训练效率和生成质量作者引入了一种解耦的一致性学习策略。这一策略的核心思想是将图像生成的先验知识与运动生成的先验知识分开进行蒸馏处理。 上图显示在一致性训练开始时如何只将空间LoRA权重插入在线模型中并逐渐通过指数移动平均EMA将LoRA权重传播到目标模型 首先作者选择在经过筛选的高质量图像-文本数据集上对稳定的扩散模型进行蒸馏。这样做的目的是获得一个图像一致性模型该模型能够捕捉到图像生成的内在规律。这一步骤是基础因为它为后续的视频生成提供了一个坚实的起点。 接下来为了适应视频数据的三维特性作者采用了3D膨胀技术。这涉及到将2D卷积核扩展为伪3D卷积核从而使得模型能够处理时间维度上的信息。通过添加时间层并采用零初始化和块级残差连接模型能够在训练初期保持输出的稳定性这有助于加速训练过程。 在这一过程中作者还特别设计了一种初始化策略。这种策略的目的是减轻在膨胀过程中可能对特征造成的损坏。具体来说在一致性训练的初期只有预训练的空间LoRA权重被插入到在线一致性模型中而目标一致性模型则不包含这些权重。这样的设计使得目标一致性模型在训练过程中不会对在线模型产生负面影响。随着训练的进行LoRA权重会通过指数移动平均EMA逐渐累积到目标一致性模型中从而在一定迭代次数后达到预期的权重设置。 作者还引入了一个损失函数用于衡量模型输出与目标之间的差异。这个损失函数不仅考虑了不同时间步长的重要性还采用了Huber损失作为距离度量以提供更平滑的梯度并增强对异常值的鲁棒性。 为了适应稳定扩散社区中的即插即用适配器或者从头开始训练特定适配器作者提出了一种无需教师模型的适配策略。在稳定扩散社区中即插即用适配器起着至关重要的作用它们可以为模型提供额外的控制能力比如根据文本提示生成图像。然而直接将这些适配器应用于视频生成时可能会遇到细节控制丢失或结果闪烁等问题。为了解决这些问题作者提出了一种有效的策略通过调整适配器的LoRALow-Rank Adaptation层来优化它们与视频一致性模型的兼容性。LoRA层是一种轻量级的调整方式可以在不显著增加计算负担的情况下改善适配器的性能。 作者还提出了一种基于一步MCMC马尔可夫链蒙特卡洛近似的方法来估计得分。这种方法可以在没有教师模型的指导下对视频生成过程中的得分进行无偏估计。通过使用一步MCMC近似可以在给定的噪声水平下对模型的输出进行调整以更好地反映数据的分布。 在实现图像到视频的生成方面作者比较了不同的图像预处理方法包括使用预训练的CLIP图像编码器、在像素空间的轻量下采样块以及在潜在空间的轻量块。研究发现在潜在空间中首先对图像进行编码然后重复潜在表示以对齐视频生成的帧数这种方法能够取得最佳结果。这可能是因为在潜在空间中进行生成可以更好地保持图像的一致性。 为了进一步提升生成结果的质量作者还提出了在HSV色调、饱和度、亮度空间中对生成视频与输入图像进行额外对齐的方法。这有助于确保生成的视频在颜色和亮度上与原始输入图像保持一致从而提高了视觉质量和真实感。 在可控视频生成方面即使是在图像扩散模型上训练的布局控制适配器也可以直接集成到视频一致性模型中以实现可控的视频生成。但是为了减少细节控制的丢失和结果闪烁作者通过调整现有适配器的LoRA层显著提高了控制的稳定性和视觉质量。 实验 作者使用了稳定扩散版本1-5作为大多数实验的基础模型并采用了DDIM ODE求解器进行训练。遵循潜在一致性模型的做法作者从1000个时间步中均匀采样了50个用于训练。除了可控视频生成的实验外所有实验都是在公开可用的WebVid2M数据集上进行的没有使用任何数据增强或额外数据。对于可控视频生成作者在TikTok数据集上训练模型并使用BLIP标注的简短文本提示。 定性结果展示了AnimateLCM在文本到视频生成、图像到视频生成以及可控视频生成中的四步生成结果。这些结果包括了现实主义、2D动漫和3D动漫等不同个性化风格模型。所有结果都令人满意在不同推理步骤下AnimateLCM方法能够很好地遵循一致性属性保持相似的风格和运动。即使仅使用两步推理也能展示出良好的视觉质量和平滑的运动。随着功能评估NFE次数的增加生成质量相应提高与教师模型在25步和50步推理步骤下的性能具有竞争力。 AnimateLCM在文本到视频、图像到视频和可控视频生成中的生成结果 定量实验部分通过表格形式展示了AnimateLCM与其他强基线方法DDIM和DPM的定量指标比较。AnimateLCM在低步数区间1到4步中显著超越了基线方法。AnimateLCM的所有这些指标都是在没有使用分类器自由引导CFG的情况下评估的而其他基线方法则应用了7.5 CFG强度因此在推理峰值内存成本和推理时间上节省了一半。通过将空间权重替换为公开可用的个性化现实风格模型AnimateLCM进一步增强了性能展示了其与个性化扩散模型的良好兼容性。 在UCF-101数据集上零样本文本到视频生成的性能比较展示了AnimateLCM与其他基线方法在FVD和CLIPSIM指标上的表现 作者还验证了所提出的解耦学习策略和特定初始化设计的有效性并通过实验结果展示了这些策略在提高收敛速度方面的优势。图5中通过比较不同训练策略下的FVDFréchet Video Distance和CLIPSIM分数可以看出采用了解耦一致性学习并结合特别初始化方法的AnimateLCM在训练过程中收敛得更快并且在较少的推理步骤下就能实现更低的FVD分数和更高的CLIPSIM分数这表明其生成的视频在视觉质量和与文本描述的匹配度上都有显著提升。与没有使用解耦策略或没有采用特定初始化方法的基线相比AnimateLCM展现出了更优的性能从而验证了其方法在加速视频生成同时保持高生成质量方面的有效性。 提出的解耦一致性学习和特定初始化策略的有效性 图6揭示了直接使用现有适配器如T2I-Adapter与经过教师自由适应策略调整后的适配器在控制稳定性和视觉质量方面的对比。实验结果表明经过教师自由适应过程的适配器能够显著减少细节控制的丢失和结果闪烁问题从而在保持较低推理步骤的同时生成更高质量且控制更为精确的视频内容。这一结果验证了AnimateLCM框架在无需额外教师模型指导下通过简单有效的策略能够提升适配器性能实现更优的可控视频生成效果。 使用和不使用无教师适配策略的可控生成结果对比 AnimateLCM通过解耦一致性学习策略和无教师适配策略在训练效率和生成质量之间取得了良好的平衡。尽管在单步生成样本时可能会产生模糊或有缺陷的结果但实验结果验证了该方法的有效性。 论文链接https://arxiv.org/abs/2402.00769

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站推广业务展会布置

一、位图 1.1 概念 所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。 数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以…

wix做网站的建议做一个公司网站需要多少钱

1.下载eclipseCDT组合包。 2.电脑上安装GCC, G 3.在eclipse上创建一个C project 4. Eclipse CDT功能很强大,安装完虽然可以编译运行c程序,但有个问题,就是找不到c标准库的头文件,无法打开诸如之类的文件,编…

dw做网站怎么加视频网站怎么做百度推广

1.Amazon Certified Cloud Practitioner 转码小白超友好的一门入门级证书,对于之前没有IT或者project经验的同学也可以轻轻松松顺利拿下,含金量很高可以直接标到linkedln的个人介绍里面。 (1)将如何帮助职业生涯 获得此认证可验证对 AWS Cloud、服务和…

会议专属网站平台建设报价单电子政务门户网站建设

1、常用位操作符 1.1、位与& (1)注意:位与符号是一个&,两个&&是逻辑与。 (2)真值表:1&00 1&11 0&00 0&10 (3)从真值表可以看出:位与操作的特点是,只有1和1位于结果为1&…

做策划有帮助的网站二级网站建设规范

简单排序:插入排序、选择排序、 冒泡排序 分治排序:快速排序、归并排序 分配排序:桶排序、基数排序 树状排序:堆排序 其他:计数排序、希尔排序 稳定排序:如果 a 原本在 b 的前面,且 a b&#x…

pl/sql使用

1.下载地址 https://www.allroundautomations.com/try-it-free/ 2.下载instantclient(连接oracle必须) https://www.oracle.com/database/technologies/instant-client/downloads.html 下载完成后,进入plsql=>conf…

PLC中的运动控制 - (二)基本控制指令MC_Power,MC_Stop,MC_Halt

本章介绍PLC中的基本控制指令,包括最基本的启停指令MC_Power和MC_Stop,MC_Halt,并详解MC_Stop何MC_Halt的区别启动指令 MC_Power MC_Power 功能块是运动控制中用于管理轴使能状态的核心指令,其本质是控制PLC与驱动…

WPF Prism PrismApplication OnInitialized()

Install-Package Prism.Wpf; Install-Package Prism.DryIOC; //app.xaml <prism:PrismApplication x:Class="WpfApp38.App"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"…

公司微网站建设汽车网站建设

深度学习在图像识别中的革命性应用标志着计算机视觉领域的重大进步。以下是深度学习在图像识别方面的一些革命性应用&#xff1a; 1. **卷积神经网络&#xff08;CNN&#xff09;的崭新时代**&#xff1a; - CNN是深度学习在图像识别中的核心技术&#xff0c;通过卷积层、池化…

FOC之电机模型

概述FOC全称磁场定向控制,从该名称可推导出适用电机的几个特点:磁场是主动方 无机械换向 转子是永磁体符合以上特点的有直流无刷电机(BLDC)和永磁同步电机(PMSM)。实际上,这两种电机的总体结构是一样的,区别在于电…

使用shell脚本一键部署docker及docker-compose环境

准备安装包: 安装包邮箱留言获取 ahui6-docker-compose-binary-install.tar.gz 脚步内容: #!/bin/bash #auther: ahui6 #博客地址: https://www.cnblogs.com/ahui6#加载操作系统的变量,主要是ID变量。 . /etc/os-re…

网站seo文章只有网站才需要域名吗

准备在工作之余看看Python的东西 收录一些资料 Python初学者&#xff08;零基础学习Python、Python入门&#xff09;常见问题&#xff1a;书籍推荐、资料、社区 http://blog.csdn.net/xiaowanggedege/article/details/8566606 小甲鱼零基础入门学习Python(全87集) http://pan.b…

怎么修改网站关键词精准引流怎么推广

需求背景 做一个OCR识别的功能,需要导出原图和识别出来的结果的图纸,将数据导出. 解决方案 EasyPOI中可以用字节类型,导出图片,可以将图片存放的url 转成字节,然后导出.但是整个导出过程耗时较久。 具体代码 /*** 草图OCR识别记录-导出.** @param response: Http…

怎么打开google网站互联网营销推广服务商

博主介绍&#xff1a;✌程序员徐师兄、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

pexels素材网站个人信用信息服务平台

CCS6软件安装 第一步&#xff1a;点击右键->以管理员身份安装&#xff08;安装路径不能有中文&#xff09; 第二步&#xff1a;安装驱动

购物网站开发技术湘icp备 网站建设 农业 湖南

本文主要包括以下内容 阈值分割技术基于区域的图像分割技术本章的典型案例 基于LoG和Canny算子的精确边缘检测基于Hough变换的直线检测图像的四叉树分解 阈值分割 我们曾在3.5节学习过灰度阈值变换的相关知识&#xff0c; 利用灰度阈值变换分割图像就称为阈值分割&#xf…

龙华建设发展有限公司网站郑州膏药网站建设

&#xff08;1&#xff09;为什么成了付费专栏&#xff1f; 知识付费时代&#xff0c;多做一些尝试免费内容非常容易被其他网站爬虫获取&#xff0c;付费是某种意义上的版权保护付费即意味着责任&#xff0c;有利于提高专栏质量&#xff0c;驱使作者对读者、对内容更负责 &…

福清营销型网站建设方案免费推广产品的平台

题目大意&#xff1a; 有n个城市&#xff0c;有一部分是A国的&#xff0c;有一部分是B国的&#xff08;小于A国的&#xff09;&#xff0c;A国每个城市都有一枚导弹&#xff08;只有一枚&#xff09;&#xff0c;炸毁别的城市的时间是到这个城市的距离&#xff0c;请问A国最快…

浙江台州网络设计网站微信自助下单小程序怎么弄

目录 用法 1. 增 2. 删 3. 查 4. 交&#xff0c;并 编码方式 应用场景 Redis 中的 Zset&#xff08;有序集合&#xff09;是一种将元素按照分数进行排序的数据结构。与上篇写的SetRedis 中的 Set 数据结构详解不同&#xff0c;Zset 中的每个元素都关联一个浮点数类型的…

哪个大学的网站做的最好看深圳代理记账公司前十名

学习过linux的同学应该都知道&#xff0c;linux系统几乎都是用c编写&#xff0c;包括现在主流的android,ios系统&#xff0c;都是使用c编程。为了方便大家学习C语言&#xff0c;小编搜集整理了市面几乎所有的C语言书籍&#xff0c;下面给出部分比较有名的&#xff0c;在微信公众…