【AI学习-comfyUI学习-三十二节-FLXU原生态反推+controlnet depth(UNion)工作流-各个部分学习】

@[TOC](AI学习-comfyUI学习-三十二节-FLXU原生态反推+controlnet depth(UNion)工作流-各个部分学习)

1,前言

最近,学习comfyUI,这也是AI的一部分,想将相关学习到的东西尽可能记录下来。

2,说明

1,第三十二节-FLXU原生态反推工作流

输入图片 → JoyCaption 自动反推描述 → 送入 FLUX 双 CLIP 条件 → KSampler 生成 → VAE 解码 → 保存

【模型加载】 UNet + 双CLIP + VAE ↓ 【输入图像】 ↓ 【VAE 编码 → Latent】 ↓ 【JoyCaption 自动生成 prompt】 ↓ 【CLIP 文本编码(正 / 负)】 ↓ 【KSampler(FLUX)】 ↓ 【VAE 解码 → Image】 ↓ 【保存】

这是一个:自动理解图片 → 自动写 prompt → 再用 FLUX 高质量重绘的 pipeline

2,第三十二节2-FLUX controlnet depth(UNion)模型工作流

原图 → DepthAnything 抽几何 → ControlNet Union(depth) 锁结构
→ JoyCaption 生成语义 → CLIP 控制风格
→ FLUX 低 CFG 采样 → 高一致性重绘

3,流程

1-第三十二节-FLXU原生态反推工作流

(1)调用模块

(2)输出 提示词

输出得提示词,自动生成

1girls, blue_eyes, weapon, full body, sky, boobs, looking at viewer, black pants,partedlips, white hair, bangs, white gloves, black gloves, holding, black footwear, snow, long hair, black jacket, long sleeve, photoshop(medium), thigh boots, holding weapon, long gloves, black_blouse, holding sword, solo, parted_bangs, cleavage, black leotard, sfw, leotard, bare shoulder, holding gun, ponytail, jacket, weapon over shoulder, bare arms, large_breasts, armpit, hair ornament, white blouse, thighhighs, long ponytail, original, blue sky, hair between eyes, gun, black hair, gloves, white hairband, black hairband, armour, swords, snowing, white hairband, 1other, long hair tied low, blue hairband, hairband, snowing hairband, blush, weapon on shoulder, black gloves, weapon on head, hair accessory, thigh strap, tits apart, hair between breasts, weapon on headwear, white_gloves, holding weapon over shoulder, weapon over head, snowing hair, hair between fingers, pants, hair intakes, blue eyes, armour on shoulders, white hairband, hair between legs, holding weapon over head, hair between thighs, armour_between_breasts, holding weapon between legs, hair between, hair between elbows, armour on forearms, armour_between

(3)生成图片

(1)原图片

(2)生成图片

(4)模型选择

2-第三十二节2-FLUX controlnet depth(UNion)模型工作流

(1)调用模块

(2)输出 提示词

Chinese style high quality character render, cinematic fantasy artwork, dynamic action pose, strong sense of motion, sharp focus, high contrast lighting, detailed fabric texture, realistic skin detail, professional concept art quality, clean lighting, no illustration texture, dramatic lighting,cleardepth separation painterly, illustration, sketch, watercolor, flat lighting, dull colors, gray tone, paper texture, canvas texture, low contrast, blurry, low detail

(3)生成图片

(1)原图片-参考图

(2)生成图

(4)使用模型

4,模块部分说明

1 JoyCaption 自动反推(核心亮点)

🔹 Joy Caption Two Load
  • 使用模型:unsloth/Meta-Llama-3.1-8B-bnb-4bit
  • 管道:JoyTwoPipeline

这是:

LLM + Vision Encoder 的图像描述模型


🔹 JoyCaption Two(参数)
参数含义
caption_typeDescriptive
caption_lengthlong
low_vramfalse

👉 输出的是长、完整、偏自然语言的描述

📌这一步 = 自动写 prompt


🔹 输出去向
  • 输出STRING
  • 直接送入下面的CLIP 文本编码器

2 CLIP 文本编码(FLUX 专用)

你这里有两个一模一样的节点

🔹 CLIP 文本编码(Flux)×2
  • 上:正向 prompt
  • 下:负向 prompt

参数:

权重:3.5

3DownloadAndLoadDepthAnythingV2Model

看到的参数

model: depth_anything_v2_vitl_fp32.safetensors precision: auto

作用一句话:

加载 Depth Anything V2 的深度预测模型(本体),供后续节点使用。


🔍 关键点逐条解释

🔹 model:depth_anything_v2_vitl_fp32

  • Depth Anything V2

    • 当前最强、最稳定的通用深度估计模型之一
  • vitl

    • Vision Transformer Large

    • 比 base / small:

      • 边缘更准
      • 人体轮廓更干净
      • 前后层次更稳定
  • fp32

    • 精度最高
    • 深度连续性最好(适合 ControlNet)

📌 结论:

这是“质量优先”的正确选择
代价只是显存和速度。


🔹 precision:auto

含义:

  • 如果显存够 → fp32
  • 显存紧 → 自动降精度

👉 对深度图质量几乎没负面影响
✔️ 推荐保持auto


它只:

  • 加载模型
  • 输出一个da_model(深度模型句柄)

5,细节部分

1-图片识别能力

有时候调试很久,一直要不到感觉质量好的图,可能使用得图片就太难了

6,工作流链接

(1)第三十二节-FLXU原生态反推工作流
https://download.csdn.net/download/qq_22146161/92554564
(2)第三十二节2-FLUX controlnet depth(UNion)模型工作流
https://download.csdn.net/download/qq_22146161/92554566

7,总结

不断学习摸索中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1150090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp富文本rich-text

1. uniapp富文本rich-text 官方文档:https://uniapp.dcloud.net.cn/component/rich-text.html 1.1. 示例 1.1.1. richText.vue <template><view ><view class"rich-layout" ><rich-text :nodes"richText"></rich-text>&l…

【无大学院-筆記試験練習:数据库(データベース問題訓練) と 软件工程(ソフトウェア)(7)】

大学院-筆記試験練習&#xff1a;数据库&#xff08;データベース問題訓練&#xff09; と 软件工程&#xff08;ソフトウェア&#xff09;&#xff08;7&#xff09; 1-前言2-数据库データベース問1【データベース・B木操作&#xff5c;相似①】問2【データベース・B木操作&…

Java死锁原因剖析:面试必看的高薪技巧!

文章目录Java死锁原因剖析&#xff1a;面试必看的高薪技巧&#xff01;一、死锁&#xff1a;线程界的“抢椅子游戏”死锁的四个必要条件二、常见死锁场景&#xff1a;代码中的“定时炸弹”场景一&#xff1a;不恰当的锁顺序场景二&#xff1a;数据库中的锁竞争场景三&#xff1…

FunASR语音识别WebUI使用指南|集成speech_ngram_lm_zh-cn提升准确率

FunASR语音识别WebUI使用指南&#xff5c;集成speech_ngram_lm_zh-cn提升准确率 1. 快速开始与环境准备 1.1 镜像信息概览 本文基于以下定制化镜像构建&#xff1a; 镜像名称&#xff1a;FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥 核心特性&#xff1a…

【人工智能学习-AI入试相关题目练习-第一次】

人工智能学习-AI入试相关题目练习-第一次1-前言2-AI入试相关题目练习3-具体自己做题4-练习&#xff08;日语版本&#xff09;解析确认基准&#xff08;1&#xff09;A*アルゴリズム&#xff08;経路探索&#xff09;题目本质【ア&#xff1a;a&#xff08;E&#xff09;】【イ&…

【Android 美颜相机】第一天:认识Android-GPUImage项目

Android-GPUImage 在移动应用开发中&#xff0c;图像滤镜处理是短视频、图片编辑、相机类APP的核心需求之一。 基于CPU的图像处理往往面临性能瓶颈&#xff0c;而GPU加速的方案能借助OpenGL ES的并行计算能力&#xff0c;实现高效、流畅的实时图像滤镜效果。由CyberAgent, In…

如何快速批量抠图?试试CV-UNet大模型镜像,开箱即用

如何快速批量抠图&#xff1f;试试CV-UNet大模型镜像&#xff0c;开箱即用 1. 引言&#xff1a;AI抠图的工程痛点与新解法 在电商、广告设计、内容创作等领域&#xff0c;图像背景移除&#xff08;抠图&#xff09; 是一项高频且耗时的基础任务。传统方法依赖人工使用Photosh…

Linux(Ubuntu)RIME 中文输入法-朙月拼音

RIME 中文输入法 Rime 确切的说不是一个具体的输入法&#xff0c;它是开源跨平台输入法框架。它在不同的操作系统&#xff08;Windows&#xff0c;MacOS&#xff0c;Linux&#xff09;有不同的实现。 ibus-rime, fctix-rime&#xff08;fctix5-rime&#xff09;输入法&#x…

大数据领域数据产品的成本核算方法

大数据领域数据产品成本核算全攻略&#xff1a;从模糊到清晰的落地指南 引言&#xff1a;为什么你必须搞懂数据产品的成本&#xff1f; 作为数据产品经理&#xff0c;你是否遇到过这些场景&#xff1a; 财务问“这个数据看板每月要花多少钱&#xff1f;”你支支吾吾说不清楚&am…

一键智能抠图实践|基于CV-UNet大模型镜像快速部署批量处理方案

一键智能抠图实践&#xff5c;基于CV-UNet大模型镜像快速部署批量处理方案 在电商产品图处理、AI图像生成、数字内容创作等场景中&#xff0c;高质量的图像抠图能力已成为基础刚需。传统手动抠图效率低&#xff0c;而市面上多数在线工具存在隐私泄露、成本高、无法批量处理等问…

批量抠图与人像分割新选择|基于科哥开发的CV-UNet大模型镜像

批量抠图与人像分割新选择&#xff5c;基于科哥开发的CV-UNet大模型镜像 1. 引言&#xff1a;一键抠图技术的演进与需求升级 随着电商、内容创作、影视后期等行业的快速发展&#xff0c;图像背景移除&#xff08;Image Matting&#xff09;已成为高频刚需。传统手动抠图效率低…

做好项目管理,无非就是三件事:盯、拆、对!

很多团队一到项目关键期&#xff0c;就开启全员熬夜模式&#xff1a;凌晨三点还在群里人改稿&#xff0c;周末全员线上开会&#xff0c;交付前一周集体住在公司……看起来很拼&#xff0c;但结果呢&#xff1f;要么勉强上线漏洞百出&#xff0c;要么干脆延期&#xff0c;客户不…

提升ASR准确率的关键|深度解析speech_ngram_lm_zh-cn集成方案

提升ASR准确率的关键&#xff5c;深度解析speech_ngram_lm_zh-cn集成方案 1. 背景与挑战&#xff1a;中文语音识别的精度瓶颈 在当前智能语音交互系统中&#xff0c;自动语音识别&#xff08;ASR&#xff09;作为核心组件&#xff0c;其准确性直接决定了用户体验和业务转化效…

如何高效完成图片背景移除?试试CV-UNet大模型镜像,支持单张与批量抠图

如何高效完成图片背景移除&#xff1f;试试CV-UNet大模型镜像&#xff0c;支持单张与批量抠图 1. 引言&#xff1a;AI抠图的工程化落地新选择 在图像处理领域&#xff0c;背景移除&#xff08;Image Matting&#xff09; 是一项高频且关键的任务&#xff0c;广泛应用于电商商…

如何高效实现语义相似度分析?试试GTE中文向量模型镜像

如何高效实现语义相似度分析&#xff1f;试试GTE中文向量模型镜像 在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;语义相似度分析是构建智能对话系统、推荐引擎、文本去重、问答匹配等应用的核心技术之一。传统方法如TF-IDF、编辑距离等虽然简单易用&#xff0c;…

CV-UNet Universal Matting核心优势解析|附一键抠图实战案例

CV-UNet Universal Matting核心优势解析&#xff5c;附一键抠图实战案例 1. 技术背景与行业痛点 图像抠图&#xff08;Image Matting&#xff09;作为计算机视觉中的经典任务&#xff0c;长期以来在影视后期、电商展示、广告设计等领域扮演着关键角色。传统抠图依赖人工操作&…

【Java毕设全套源码+文档】基于Web的多传感器健康管理系统的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

如何高效批量抠图?试试CV-UNet大模型镜像,操作简单速度快

如何高效批量抠图&#xff1f;试试CV-UNet大模型镜像&#xff0c;操作简单速度快 在图像处理领域&#xff0c;抠图&#xff08;Image Matting&#xff09; 是一项高频且关键的任务&#xff0c;广泛应用于电商产品展示、广告设计、影视后期和AI内容生成等场景。传统依赖Photosh…

本地化语音转文字方案|基于科哥二次开发的FunASR镜像实践

本地化语音转文字方案&#xff5c;基于科哥二次开发的FunASR镜像实践 随着AI语音技术的发展&#xff0c;语音识别&#xff08;ASR&#xff09;在会议记录、视频字幕生成、客服系统等场景中广泛应用。然而&#xff0c;许多企业或个人开发者面临数据隐私、网络延迟和成本控制等问…

AI应用架构师如何运用AI算法优化智能财务AI预测系统

AI应用架构师如何运用AI算法优化智能财务AI预测系统 一、引入&#xff1a;财务预测的“生死局”与AI的破局之路 1. 一个真实的痛点故事 某零售企业的财务总监最近愁得睡不着觉&#xff1a; 上季度的营收预测偏差高达25%——原本预计营收1.2亿&#xff0c;实际只做了9000万&…