深圳市城乡住房和建设局网站wordpress加载速度
深圳市城乡住房和建设局网站,wordpress加载速度,酒店如何做团购网站,南昌 网站建设连更#xff01;#xff01;
0 Abstract
先前的姿势引导图像合成方法简单的将人的外观与目标姿势进行对齐#xff0c;这容易导致过拟合#xff0c;因为缺乏对source person image的high-level semantic understanding#xff1b;文章开发了一种新的训练范式#xff1a;…连更
0 Abstract
先前的姿势引导图像合成方法简单的将人的外观与目标姿势进行对齐这容易导致过拟合因为缺乏对source person image的high-level semantic understanding文章开发了一种新的训练范式仅基于图片控制pre-traind text-to-image diffusion model的图像生成过程
1 Introduction
GAN-based方法不够稳定因此表现不佳现有的diffusion-based方法缺乏对人像的high-level semantic understanding容易导致过拟合与低泛化性本文提出了Coarse-to-Fine Latent Diffusion (CFLD)方法 打破传统范式使用文本prompt高度语意化与信息深度控制SD model的图片生成过程perception-refined decoder对细粒度的外观信息进行解耦通过类似QFormer结构从source image学习外观信息得到一组prompt token替代了text prompt作为粗粒度prompt关注人像的常规语意hybrid-granularity attention module将多尺度细粒度外观信息作为bias term增强粗粒度prompt控制纹理细节。
2 Related Work
…
3 Method 3.1 Preliminary
基于text-to-image latent diffusion model例如Stable Diffusion VAE原始像素空间和低维潜在空间之间的映射UNet-based prediction model对潜在空间特征进行循环去噪
3.2 Coarse-to-Fine Latent Diffusion
训练过程使用到的数据原始pose、原始image、目标pose、目标imageArchitecture Hsimage decoder例如swim-transformer对原始image进行解码HDPerception-Refined Decoder于image特征交互学习一组tokens作为conditionHAHybrid-Granularity Attention module将image encoder的多尺度特征映射为偏置项Hppose adapter由一些ResNet blocks构成生成的特征被加到Unet不需要微调 Perception-Refined Decoder 人像有一些常见特征例如body parts、age、gender、hairstyle、clothing…这些常见特征启发本文通过一组固定的learnable queries去表征人像的语意并作为SD的conditional embedding Hybrid-Granularity Attention 为了控制生成图片的纹理细节在上采样block中将多尺度图像特征编码K transformer layers with a zero convolution为cross-attention中Q值noise image对bias
3.3 Optimization 重建损失重建原图 mse损失生成目标图像 噪声采样随机高斯噪声积累无分指导增强训练过程中一定概率丢弃源图像或者目标pose
4 Experience
4.1 Quantitative Comparison 高精度 高效
4.2 Qualitative Comparison 4.3 User Study
招募用户进行判别 R2G真实图片被认为是生成的G2R生成图片被认为是真实的Jab每个志愿者都被要求从不同方法生成的图像中选择与地面真相最匹配的34.9
4.4 Ablation Study
B1其他diffusion-based方法中将多尺度外观信息作为条件B2使用CLIP为源图像生成描述性粗粒度提示B3Ours - biasB4Ours - bias Q开放可学习B5去除PRD模块只使用Swin Transformer的特征作为条件 可视化
4.5 Appearance Editing 风格迁移将参考图片感兴趣的区域要迁移的服饰mark出来作为一个二值mask即m加入到noise prediction process保留原图的脸加入参考图的衣服 风格插值支持粗粒度提示和细粒度外观偏差的线性插值
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/87760.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!