该论文解决的问题
1 简要描述

2 在之前的工作中存在下述问题
计算过程需要计算:
 1 unconditional的unet
 2 conditional(w text)的unet
 下图展示了计算过程

对应的代码
 pipelines->
 stable_diffusion->
 pipline_stable_diffusion.py->
 StableDiffusionPipeling->
 7. Denoising loop

输入合并 torch.cat([latents*2])
下面是自己试验
输出拆分 noise_pred_uncond和noise_pred_text