Day26-文生图原理+实操

news/2026/1/19 18:58:34/文章来源:https://www.cnblogs.com/fuminer/p/19503462

comfyui文生图原理+实操

comfyui的文生图架构

comfyui的文生图架构如图所示:

image-20260114143451274

其中潜空间部分相对比较难理解,接下来通过下图深入理解潜空间工作原理:

image-20260114144416978

经过潜空间的迭代去噪,最终需要通过像素空间将降噪后的结果还原为可识别的图像。

在comfyui中对应的条件空间、潜空间和像素空间对应的节点如下:

image-20260114145338637
模块/阶段 功能与原理说明 对应节点/组件
1. 条件空间处理
文本编码 通过CLIP 文本编码器将文本提示词转化为语义向量,建立文本与图像的关联性 CLIP 文本编码器(正向/负向)
大模型加载 加载相关模型 Checkpoint加载器
2. 潜空间生成
噪声初始化 生成指定尺寸的随机高斯噪声矩阵,作为生图的起点。 空Latent
迭代降噪(核心) 通过扩散模型(UNet)结合文本条件在潜空间逐步去除噪声 K采样器
3. 像素空间转换
潜空间解码 将降噪后的潜空间特征矩阵还原为高清像素图像 VAE 解码
图像输出 保存或预览最终生成的图像 保存图像

文生图实操

使用阿里云的cloudstudio部署的Comfyui

  • 添加【条件空间】相关节点

    • Checkpoint加载器
    • CLIP 文本编码器
    image-20260114153009292
    • 选择模型:

      image-20260114172510954

  • 添加【潜空间】相关节点

    • K采样器
    • 空Latent

    image-20260114153321259

  • 添加【像素空间】相关节点

    • VAE 解码
    • 图像保存

    image-20260114153736492

    最后注意,将所有连线串联完整!

模型相关

文生图大模型综合对比表

image-20260114150433996

常用大模型

  • 写实模型:

    • realisticVisionV51
  • 3d大模型:

    • dreamshaper_8
  • 卡通大模型:

    • meinamix
    • GhostMix鬼混_V2.0

下载链接: https://pan.baidu.com/s/19Len6XHX4L15MApaJq8Y2A?pwd=j9kz 提取码: j9kz

提示词编写技巧

一份清晰、结构化的提示词,能够更好地引导 AI 生成我们想要的画面。这里为大家推荐一个高效且易于上手的提示词编写模板

一、核心公式:三位一体结构

我们可以将提示词想象成向一位画家描述作品要求,一个高效的公式是:

质量词 + 内容描述 + 艺术风格

这三个部分依次决定了画面的 “精细度”“是什么”“像什么”

1. 质量词

这部分用于设定画面的基础质量和细节水平,通常放在提示词的最开头。

  • 常用词示例masterpiece(杰作)、highly detailed(高度细节)、Best quality(最佳质量)
  • 作用:相当于对 AI 说:“请用心画,画得精致一些。”

2. 内容描述

这是提示词的核心,用于描绘画面的具体内容。推荐采用 “谁 + 在哪里 + 做什么” 的结构进行组织,这样逻辑清晰,不易遗漏。

  • :主体是什么?例如:1girl(一个女孩)、an astronaut(一位宇航员)、a cute cat(一只可爱的猫)。
  • 在哪里:场景或背景是什么?例如:in a coffee shop(在咖啡馆)、on the moon(在月球上)、in a magical forest(在魔法森林中)。
  • 做什么:主体在发生什么动作或呈现什么状态?例如:smiling(微笑)、reading a book(看书)、flying a kite(放风筝)。
  • 细节补充:可以进一步描述外貌、服饰、表情、光线等,如 black curly hair, long hair, Big eyes, blue Shoulder skirt, Earrings(黑色卷发、长发、大眼睛、蓝色露肩裙、耳环)。

3. 艺术风格

这部分决定了画面的最终表现手法和审美基调。

  • 写实风格:追求像照片一样真实。关键词:photorealistic(照片般真实)、realistic(写实的)。
  • 3D 渲染风格:像三维软件制作的 CG 图像。关键词:3d rendering(3D 渲染)、CGI(电脑生成图像)。
  • 卡通/动画风格:具有手绘或动画质感。关键词:Cartoon(卡通)、Studio Ghibli(吉卜力工作室风格)、anime(动漫)。

二、参考案例与实操解析

假设我们想生成一张 “一位女孩在咖啡馆喝咖啡” 的精致写实图片。

  • 大模型选择:为了实现写实效果,我们可以选择擅长此类风格的模型,例如 realisticghostmix 等。

  • 正面提示词:这是我们希望画面中出现的内容。

    • text
    masterpiece, highly detailed, Best quality, 1girl, black curly hair, long hair, Big eyes, blue Shoulder skirt, Earrings, smiling, Coffee shop, have coffee, photorealistic
    
    • 结构分解
      • 质量词masterpiece, highly detailed, Best quality
      • 内容1girl(谁),black curly hair... Earrings(外貌细节),Coffee shop(在哪里),smiling, have coffee(做什么)
      • 风格photorealistic(写实风格)
  • 负面提示词:这是我们不希望画面中出现的内容,用于避免常见错误或瑕疵。

    • text
    nsfw, text, watermark
    
    • 含义解释
      • nsfw:排除不适宜公开的内容。
      • text:避免图片中出现无意义的文字符号。
      • watermark:避免出现类似水印的痕迹。

演示示例1:

这个示例营造一个充满幻想、色彩明媚的动画电影场景。

  • 正面提示词

    text

    Studio Ghibli style, masterpiece, beautiful and detailed, vibrant colors, a young explorer with a backpack and a straw hat, standing in a sun-dappled enchanted forest, giant glowing mushrooms and friendly forest spirits, looking up in awe, magical atmosphere, Miyazaki Hayao
    
    • 结构解析
      • 质量词masterpiece, beautiful and detailed
      • 内容a young explorer with a backpack and a straw hat(谁),standing in a sun-dappled enchanted forest, giant glowing mushrooms...(在哪里),looking up in awe(做什么),magical atmosphere(氛围)
      • 风格Studio Ghibli style, vibrant colors, Miyazaki Hayao(非常明确的风格指引)
  • 负面提示词

    text

    realistic, photorealistic, photo, dark, scary, horror, ugly, deformed, nsfw, text
    

演示示例2:

这个示例侧重于宏大的场景构建与特定的数字艺术风格。

  • 正面提示词

    text

    epic scale, concept art, digital painting, intricate details, a massive floating mechanical city overgrown with luminous plants, towering spires and flying vehicles, golden hour sunlight piercing through clouds, volumetric fog, by artists like Syd Mead and Moebius
    
    • 结构解析
      • 质量词epic scale, concept art, intricate details(这里用“概念艺术”和“史诗规模”来定义一种高质量标准)
      • 内容a massive floating mechanical city(场景主体),overgrown with luminous plants, towering spires and flying vehicles(场景细节),golden hour sunlight, volumetric fog(光影氛围)
      • 风格digital painting(风格媒介),by artists like...(通过参考艺术家来锁定特定审美风格)
  • 负面提示词

    text

    low resolution, pixelated, blurry, simple background, empty, cartoon, real photo, photograph, human, person, face
    

k采样器参数

参数类别 参数名称 说明 推荐值范围 作用效果与原理 实用示例
基础控制 随机种(Seed) 生成过程的“身份ID” 任意整数(如12345 本质是潜在空间中初始噪点图的坐标。相同种子+相同参数=几乎相同的输出,保证可复现性。是创作中微调的起点。 找到一张喜欢的图,记录其种子,可在此基础上仅修改提示词进行系列创作。
生成后控制 种子的行为模式 递增/递减/固定/随机 固定:保持当前种子不变;随机:每次生成全新种子。 批量生成不同创意时选“随机”;优化单张作品时选“固定”。
质量与时间 步数(Steps) 画师的“思考时间” 见右侧详解 去噪迭代次数。每一步都是对图像的一次“思考与修正”。 草图(5-15步):快速构思,适合分镜。 动漫/卡通(20-30步):风格化强,细节需求适中。 超写实/复杂场景(25-40步):需要更多步数打磨材质、光影等微观细节。
创意控制 CFG(提示词引导系数) 画师的“听话程度” 见右侧详解 控制生成结果与你的提示词之间的紧密度 创意发散(3-6):AI有更大自由发挥空间,色彩、构图可能更“艺术”,但可能偏离提示。 平衡可控(7-9):最常用范围,良好遵循提示的同时保持自然。 过度引导(>10):易产生“过度锐化”、“塑料感”、颜色饱和度过高或肢体扭曲。
算法核心 采样器(Sampler) 画师的“作画策略” 见右侧详解 决定了从纯噪声到清晰图像的“行走路径”。不同算法在速度、稳定性和风格倾向上有差异。 全能优选 dpmpp_2m:速度与质量平衡好,通用性强。 快速草图 euler/euler a:单步快,适合快速测试想法(euler a 是随机变体,更有趣)。 高质写实 dpmpp_sde:带随机微分方程,常能产出更丰富的细节和更“绘画感”的结果,但更慢。
调度器(Scheduler) 作画的“节奏大师” 见右侧详解 控制每一步噪声去除的“力度”变化曲线。影响收敛速度和最终纹理。 细节增强 karras:中后期步长变化,强调后期精细调整,常增加对比和细节。 平滑稳定 normal:线性或简单调度,产出更柔和、有时更“平均”的结果。 快速收敛 exponential:前期去噪猛,适合步数少时快速成型,但可能损失一些微妙过渡。
高级合成 降噪(Denoise) 新旧画面的“融合比” 0.0 - 1.0 在图生图(Latent)流程中,控制在初始图上应用新生成过程的比例 完整重绘(1.0):从初始潜变量完全重新生成。 风格融合(0.5-0.8):保留原图大致构图和色彩,注入新风格或内容。 微调优化(0.2-0.4):仅做轻微色调、细节调整。 抽象叠加(<0.3):产生类似双重曝光的多层抽象效果。

步数测试:

  • 推荐参数:
    • 卡通20,写实30

image-20260118144052630

cfg测试

  • 推荐参数:
    • 7左右

image-20260118144235132

步数(Steps) vs. 采样器(Sampler)

  • 误区纠正:“步数越高=质量越好”不完全正确。每个采样器都有其“收益饱和点”
  • 示例对比
    • 使用 euler 采样器,可能15步后细节就不再显著提升,而30步只是浪费时间。
    • 使用 dpmpp_2m 采样器,可能在25步达到最佳平衡,40步能挖掘出更微妙的纹理。
  • 行动建议:为你的常用采样器做阶梯测试(如5, 15, 25, 35步),找到其“性价比”最高的步数区间。

cfg与采样器的化学反应

  • 关键洞察:cfg的效果强烈依赖采样器
    • 对于 euler 这类简单采样器,CFG>9就极易崩坏。
    • 对于 dpmpp_sde 这类复杂采样器,CFG在7-11之间可能仍能保持稳定,并产出高动态范围的作品。
  • 测试任务:固定一个复杂人像提示词,用 dpmpp_2m 测试CFG=7, 9, 12。观察面部细节、瞳孔高光和发丝锐利度的变化。

调度器:改变图像的“质感”

让我们通过一个具体场景来理解:

  • 提示词A weathered ancient stone statue, moss covering, morning mist, forest
  • 测试组合
    1. dpmpp_2m + karras:雕像表面会显得更粗糙、更戏剧化,苔藓细节分明,像一张高清摄影。
    2. dpmpp_2m + normal:雕像可能更光滑、整体更统一,雾气更柔和,像一幅古典油画。
  • 原理karras调度在最后几步使用极小的步长,相当于画师在收尾时用了更细的笔刷进行“精雕细琢”。

推荐组合配置模板

创作目标 采样器 步数 CFG 调度器 说明
快速创意探索 euler a 12-18 7-8 normal 快速试错,捕捉灵感,不拘泥于细节。
高质量动漫/角色 dpmpp_2m 25-30 7.5-8.5 karras 平衡速度与角色细节、线条清晰度。
超写实照片/场景 dpmpp_sde 30-35 8-9.5 karras 最大化材质、光影和复杂场景的细节深度。
艺术感绘画/概念 dpmpp_2m 28-35 6-7.5 normal 给予AI更多创作自由,获得更“绘画性”而非“照片性”的结果。
图生图风格融合 dpmpp_2m 20-25 7-8 normal 降噪设置在0.5-0.75,平衡原图信息与新指令。

最终建议:理解参数最好的方式就是控制变量法测试。创建一个你最喜欢的提示词,然后每次只改变一个参数(如固定其他,只从CFG=7调到CFG=12),像做科学实验一样观察其带来的视觉变化,你将成为真正驾驭AI的画师。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国产大模型:从跟跑到领跑的智能突围与产业赋能

当百度文心一言实现中文语义理解的精准突破&#xff0c;当华为盘古大模型在工业场景中落地生根&#xff0c;当DeepSeek助手掀起全球技术热潮——以自主创新为核心的国产AI大模型&#xff0c;正从政策驱动走向产业深耕&#xff0c;掀起一场覆盖技术攻坚、生态构建与千行百业转型…

MATLAB超详细下载安装教程(附安装包)2025最新版(MATLAB R2025a)

一、MATLAB R2025a下载 软件名称:MATLAB R2025a 软件大小:14.2GB 夸克下载链接:https://pan.quark.cn/s/7ed37270daa0二、MATLAB R2025a软件介绍 MATLAB 2025(R2025a)是MathWorks推出的核心版本,主打AI协同与…

ET6037S多通道(18通道LED驱动芯片)实现128级精密调光芯片解析

ET6037 是一款 18 通道恒流 LED 功率驱动芯片&#xff0c;通过 IC 接口即可对每路 2-45mA 电流进行 128 级线性调节&#xff0c;内置恒流源、RGB 分组使能、软关断与地址可编程&#xff0c;QFN24/SSOP24 两种封装&#xff0c;把「大电流、高精度、小封装」一次打包&#xff0c;…

【vLLM 学习】Rlhf Utils

vLLM 是一款专为大语言模型推理加速而设计的框架&#xff0c;实现了 KV 缓存内存几乎零浪费&#xff0c;解决了内存管理瓶颈问题。 更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ *在线运行 vLLM 入门教程&#xff1a;零基础分步指南 源码 examples/offline_inf…

Day25-ComfyUi环境搭建

comfyui简介 ComfyUI 是一款专为 Stable Diffusion 打造的开源可视化操作工具。它用「节点化工作流」的方式,让你拖一拖、连一连,就能轻松生成高质量的 AI 图像和视频。并且它还有如下特点:永久免费、可商用:不用花…

Golang原理剖析(defer、defer面试与分析)

文章目录defer是什么​defer的使用形式defer的底层结构defer的执行过程_defer内存分配堆上分配栈上分配开放编码defer函数执行defer面试与分析1、defer的底层数据结构是怎样的​2、循环体中能用defer调用吗&#xff1f; 会有什么问题&#xff0c;为什么&#xff1f;3、defer能修…

攻防世界backup

1.进入发现什么都没有2.根据提示查看其备份文件名 常见备份后缀名有:.git .svn .swp .svn .~ .bak .bash_history .php 一. .git 【最高危 - 源码泄露】 含义:Git 版本控制系统的核心目录,项目的「所有版本历…

[python] python-docx-template模板化Word文档生成指北

python-docx库的核心功能是程序化创建全新的Word文档,但在基于已有模板替换其部分内容时,其操作会非常繁琐。用户需要先解析文档结构、定位具体位置、手动替换内容,并维护原有格式与布局,导致开发效率较低。相关使…

gitee分支

核心操作命令与步骤总结 一、分支创建与推送 1. 基于已有分支创建并切换新分支 # 切换到基础分支A git checkout 分支A名称 # 拉取分支A最新远端代码 git pull origin 分支A名称 # 创建并切换到新分支B git checkout -…

Manus官方揭秘Sandbox云计算机:智能体的云端 AI 助手与智能计算环境

Understanding Manus Sandbox - Your Cloud Computer摘要Manus现已成为Meta的一部分&#xff0c;推出革命性的Manus Sandbox云虚拟机服务。作为AI Agent的"手"&#xff0c;Sandbox为每个任务提供完全独立的云计算环境&#xff0c;具备完整的网络、文件系统和软件工具…

【数字信号去噪】基于matlab吕佩尔狐算法优化变分模态分解RFO-VMD数字信号去噪(优化K值 alpha值 综合指标 适应度函数包络熵)【含Matlab源码 14994期】

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到海神之光博客之家&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49…

day08-工作流和智能体发布

今日内容 1 12306出行建议工作流 # 1 出行之前先查天气,天气合适,查询车次,找到有座的车次,做推荐1.1 步骤 # 1 开始节点-出行时间-出发地-目的地# 2 查询天气插件-只查询出发地天气-如果同学想查询两个地的天气-…

线段树的构建与使用

线段树的构建与使用线段树是指如下图所示的数据结构:其中,对于每个标号为n,左端点是l,右端点是r的节点有:子树 标号 左端点 右端点左子树 2*n l floor((l+r)/2)右子树 2*n+1 floor((l+r)/2)+1 r使用线段树,我们可…

炒股别太努力:量化交易正在“收割”最认真的投资者?

当勤奋成为亏损的陷阱在多数领域&#xff0c;深入研究和勤奋分析是通往成功的不二法门。我们从小就被教导&#xff0c;付出越多&#xff0c;收获越大。然而&#xff0c;在当前的A股市场&#xff0c;这个看似颠扑不破的逻辑可能正在失效&#xff0c;甚至会适得其反。当下的市场主…

LP3716CK隔离型10W/12W极简化自供电原边反馈控制芯片解析

LP3716CK是芯茂微推出的“极简型”隔离型原边反馈&#xff08;PSR&#xff09;PWM功率开关&#xff0c;单颗SOP8L即可实现10W/12W适配器或LED驱动电源。它把高压启动、功率BJT、CV/CC环路、线损补偿、全套保护全部集成&#xff0c;外围仅需10颗元件&#xff0c;BOM成本比传统方…

手把手搭建本地RAG知识库!实现文档秒检索。

文章详细介绍如何使用开源模型nomic-embed-text搭建本地RAG知识库&#xff0c;实现高效文档检索。内容包括模型基本信息、特性对比和应用场景&#xff0c;以及完整搭建步骤&#xff1a;下载模型、创建工作区、上传文档、向量化存储和检索测试。同时提供了两种使用方式&#xff…

VP引导定位软件-定位纠偏(带角度)

VP引导定位软件-定位纠偏&#xff08;带角度&#xff09;/// <summary>/// 计算物理旋转之后点xy的变化/// </summary>/// <param name"x0">图像物体上一点的x</param>/// <param name"y0">图像物体上一点的y</param>…

使用MCP执行代码:让Agent效率提升98.7%

Anthropic推出的Model Context Protocol (MCP)面临大规模工具连接的性能瓶颈。通过将MCP服务器呈现为代码API&#xff0c;实现了98.7%的token使用率降低。这一创新架构实现了五大优势&#xff1a;渐进式工具披露、高效数据处理、强大控制流、隐私保护和状态持久化&#xff0c;使…

PL3327系列(PL3327CD/CS/CE/CF) 18W AC/DC反激式开关电源芯片方案

PL3327是聚元微推出的「原边控制 内置650V MOSFET」反激式功率开关系列&#xff0c;涵盖DIP7、SOP7、SOP8四种封装&#xff0c;单颗芯片即可输出5V-24V/18W以内电源。它把传统方案中的光耦、TL431、高压MOSFET、启动电阻全部省掉&#xff0c;BOM从25颗压缩到12颗&#xff0c;峰…

基于YOLOv8的交通事故车辆损伤检测与事故严重程度分级项目识别项目

基于YOLOv8的交通事故车辆损伤检测与事故严重程度分级项目识别项目&#xff5c;完整源码数据集PyQt5界面完整训练流程开箱即用&#xff01; 基本功能演示 https://www.bilibili.com/video/BV1yakuB6EJt/ 项目摘要 本项目围绕 交通事故车辆损伤检测与事故严重程度分级 这一典…