南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成。

(1Prompt1Story)是一种无训练的文本到图像生成方法,通过整合多个提示为一个长句子,并结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术,解决了生成图像中身份不一致的问题,同时保持了文本描述的精准对齐。

相关链接

  • 论文:https://arxiv.org/abs/2501.13554

  • 代码:https://github.com/byliutao/1Prompt1Story

  • 主页:https://byliutao.github.io/1Prompt1Story.github.io/

论文介绍

论文出了一种无需训练的方法1Prompt1Story,通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。此外,它还支持多字符生成、ControlNet 引导生成和个性化生成逼真的图像。

方法

(a):1Prompt1Story 的整体流程。我们将身份提示和框架提示合并为一个提示,然后应用奇异值重加权 (SVR) 和身份保留交叉注意力 (IPCA) 来生成身份一致的图像。(b):在SVR期间,我们首先增强表达集X_exp的语义信息(红色箭头),然后迭代地削弱抑制集X_sup的语义(蓝色箭头)。(c):在IPCA中,我们将 K_tilde 与 K_bar 连接,将 V_tilde 与 V_bar 连接,以提高身份一致性。

(左):1Prompt1Story 可以与 ControlNet 集成,以实现空间控制,从而实现一致的角色生成。(右):此外,我们的方法还可以与其他方法(例如 PhotoMaker)结合使用,以实现真实图像个性化,同时提高身份一致性。

结果展示

现有方法(上)在 T2I 生成一致性方面面临挑战。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的图像之间经常表现出明显的身份不一致。尽管包括 IP-Adapter 和 ConsiStory 在内的最新方法已经提高了身份一致性,但它们失去了生成的图像与相应输入提示之间的一致性。我们方法的其他结果(下)展示了卓越的一致性,同时不损害文本和图像之间的一致性。

对帧提示顺序的鲁棒性。使用同一组帧提示但不同的顺序,我们的方法 1Prompt1Story 可以一致地生成具有统一标识的图像。

多主题故事生成。通过在身份提示中定义多个主题,我们的方法生成具有多个角色的图像,每个图像都保持良好的身份一致性。

种子变化。通过使用不同的种子,1Prompt1Story 可以生成具有不同背景的图像,同时保持一致的身份。

与不同的基础模型相结合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/72862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BLUEM2引擎源码2025最新版

BLUE 引擎解析:传奇私服圈中的热门引擎 一、BLUE 引擎简介 BLUE 引擎是传奇私服圈子中较为知名的一款游戏引擎,它在传统的传奇引擎基础上进行了优化和扩展,使得私服开发者可以更加方便地搭建和管理服务器。相比于早期的 GEE、LEG、Hero 等引…

第53天:Web攻防-SQL注入数据库类型用户权限架构分层符号干扰利用过程发现思路

#知识点:(本节课了解即可) 1、Web攻防-SQL注入-产生原理&应用因素 2、Web攻防-SQL注入-各类数据库类型利用 一、数据库知识: 1、数据库名,表名,列名,数据 2、自带数据库,数据库用户及权限 3…

【玩转MySQL数据字典】MySQL数据字典与常用操作指令

MySQL数据字典简介与常用操作指令 一、数据字典简介 数据字典是MySQL 5.7中用于存储数据库对象元数据的系统表。在MySQL的早期版本中,元数据存储在.frm文件及其他文件里。这种存储方式存在诸多弊端,例如元数据不一致问题,不同文件间元数据的…

如何有效判断与排查Java GC问题

目录 一、GC的重要性与对性能的影响 (一)GC对性能的影响简要分析 1.GC暂停与应用停顿 2.GC吞吐量与资源利用率 3.GC对内存管理的作用:资源回收 4.GC策略与优化的选择 (二)GC的双刃剑 二、GC性能评价标准 &…

el-table(elementui)表格合计行使用以及滚动条默认样式修改

一、el-table新增合计行以及el-table展示数据出现的问题 1. 使用合计行 el-table的属性show-summary设为true,即可在表格尾部展示合计行。默认情况下,第一列不展示数据,而显示合计二字,可以通过sum-text自己配置,其余…

olmOCR:高效精准的 PDF 文本提取工具

在日常的工作和学习中,是否经常被 PDF 文本提取问题困扰?例如: 想从学术论文 PDF 中提取关键信息,却发现传统 OCR 工具识别不准确或文本格式混乱?需要快速提取商务合同 PDF 中的条款内容,却因工具不给力而…

云计算:虚拟化、容器化与云存储技术详解

在上一篇中,我们深入探讨了网络安全的核心技术,包括加密、认证和防火墙,并通过实际案例和细节帮助读者全面理解这些技术的应用和重要性。今天,我们将转向一个近年来迅速发展的领域——云计算。云计算通过提供按需访问的计算资源,彻底改变了IT基础设施的构建和管理方式。本…

免费开源抓包工具Wireshark介绍

一、Wireshark 安装详解 Wireshark 是一款跨平台的网络协议分析器,支持 Windows、macOS 和 Linux 等操作系统。以下分别介绍在不同操作系统上的安装步骤,并详细解释安装过程中的选项。 1、Windows 平台安装 1.下载 Wireshark 安装包: 访问 Wireshark…

蓝桥杯备赛:炮弹

题目解析 这道题目是一道模拟加调和级数,难的就是调和级数,模拟过程比较简单。 做法 这道题目的难点在于我们在玩这个跳的过程,可能出现来回跳的情况,那么为了解决这种情况,我们采取的方法是设定其的上限步数。那么…

2025年渗透测试面试题总结-奇安信安全工程师(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 奇安信安全工程师 1. MVC框架详细说明 2. SQL注入详细介绍 3. XSS和CSRF的区别 4. XXE漏洞原理 5. …

【阿里云】控制台使用指南:从创建ECS到系统诊断测评

前言 随着云计算技术的快速发展,越来越多的企业和开发者开始使用云服务来部署和管理应用程序。在众多云服务提供商中,阿里云(Alibaba Cloud)凭借其强大的基础设施和丰富的服务,成为了众多用户的首选。本文旨在介绍如何…

关于OceanBase与CDH适配的经验分享

CDH是Cloudera早期推出的一个开源平台版本,它实质上成为了Apache Hadoop生态系统内公认的安装与管理平台,专为企业级需求量身打造。CDH为用户提供了即装即用的企业级解决方案。通过整合Hadoop与另外十多项关键开源项目,Cloudera构建了一个功能…

电机驱动电路:单桥(H桥)与双桥(双H桥)详解

一、电机驱动电路的作用 电机驱动电路通过控制电流方向和大小,实现电机的正反转、调速及制动。常见的结构包括单桥(H桥)和双桥(双H桥),分别适用于不同场景。 二、单桥(H桥)驱动电路 1. 结构示意图(文字描述) 开关元件:4个功率开关(如MOSFET或IGBT)组成桥臂,分…

[网络爬虫] 动态网页抓取 — Selenium 入门操作

🌟想系统化学习爬虫技术?看看这个:[数据抓取] Python 网络爬虫 - 学习手册-CSDN博客 0x01:WebDriver 类基础属性 & 方法 为模仿用户真实操作浏览器的基本过程,Selenium 的 WebDriver 模块提供了一个 WebDriver 类…

牛客周赛A:84:JAVA

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 题目描述 \hspace{15pt}小红定义一个数组的陡峭值为:每两个相邻的元素,差值的绝对值之和。例如,数组 {2,3,1}\{2,3,1\}{2,3,1} 的陡峭值是 ∣2−3∣∣3−1∣…

Cython编译去掉符号表

在Cython编译过程中去掉符号表(symbol table)可以增加生成代码的安全性,使其更难被逆向工程。然而,需要注意的是,Cython本身并不直接提供一个开关来去除符号表。通常,这是通过编译器和链接器的选项来实现的…

在 IntelliJ IDEA(2024) 中创建 JAR 包步骤

下是在 IntelliJ IDEA 中创建 JAR 包的详细的步骤: ​1. 选择File -> Project Structure->Artifacts, (1)点击➕新建,如下图所示: (2)选择JAR->Empty (3)输入jar包名称,确定输出路径 (4&#…

Python零基础学习第三天:函数与数据结构

一、函数基础 函数是什么? 想象你每天都要重复做同一件事,比如泡咖啡。函数就像你写好的泡咖啡步骤说明书,每次需要时直接按步骤执行,不用重新想流程。 # 定义泡咖啡的函数 def make_coffee(sugar1): # 默认加1勺糖 print("…

idea启动项目报端口被占用

端口确实被占用 winR,输入cmd,进入终端,查找到对应端口的进程id,杀掉项目 netstat -ano | findstr "8080"taskkill /F /PID 37020 idea设置中,选择让maven代替进行项目关闭,此时其实点击build可…

达梦数据库在Linux,信创云 安装,备份,还原

(一)系统环境检查 1操作系统:确认使用的是国产麒麟操作系统,检查系统版本是否兼容达梦数据库 V8。可以通过以下命令查看系统版本: cat /etc/os-release 2硬件资源:确保服务器具备足够的硬件资源&#xff0…