机器学习周报三十一

文章目录

    • 摘要
    • Abstract
      • 1 TripleFDS
      • 2 Flux-Text
    • 总结

摘要

本周看了两篇关于场景文本编辑的论文,达到了最新的SoTA的论文,学习到了数据集构建和损失函数构造对模型性能提升至关重要。

Abstract

This week, I read two papers on scene text editing, both achieving the latest state-of-the-art results. I learned that dataset construction and loss function design are crucial for improving model performance.

1 TripleFDS

腾讯前不久发的论文,达到了场景文本编辑SoTA的性能。

传统的方法修改会出现缺失、风格不匹配和模糊背景等问题。因为模型不能清晰地分清“哪个是字,哪个是风格,哪个是背景”。这些属性在模型的“眼里”是“纠缠”在一起的,动一个就可能影响全局。
为了解决这个“纠缠”难题,TripleFDS设计了一套精巧的“解耦-合成”流程,核心在于其创新的训练数据构建方式和独特的约束机制。

SCB Synthesis:像搭积木一样创造数据

首先,为了让模型学会区分三种特征,研究者们提出了一种名为SCB Synthesis的数据集构建方法。这里的S、C、B分别代表风格(Style)、内容(Content)和背景(Background)。
他们设计了一个叫“SCB Group”的概念。有3种字体风格、3段文字内容和3个背景图片,将它们三三组合,得到 3x3x3 = 27 张不同的图片。这些图片构成一个SCB Group,组内的每张图片共享着某些属性(相同的风格、内容或背景)。
通过构建大量的这种“积木组合”,模型在训练时就能接触到各种各样的解耦样本,从而潜移默化地学会:“哦,原来改变文字内容,风格和背景是可以保持不变的”。


解耦与合成
TripleFDS的整体框架如下图所示,它主要包含特征解耦和特征合成两个阶段。

特征解耦:模型使用一个基于Transformer的解耦模块,将输入的图片编码成三个独立的特征向量: (风格), (内容), (背景)。为了保证解耦的彻底性,研究者设计了两种特殊的损失函数:

  • 组间对比损失 :这个损失函数的目标是“拉近同类,推开异类”。在SCB Group内部,拥有相同属性(比如相同风格)的图片,它们的风格特征应该尽可能接近;而属性不同的图片,特征则要相互远离。

  • 样本内正交损失 :这个损失函数则聚焦于单张图片。它要求从同一张图片中提取出的风格、内容、背景三个特征之间应该尽可能“正交”,也就是互不相关,以此来减少特征之间的信息冗余。

  • 特征合成:在合成阶段,模型会将解耦出的特征重新组合,以生成新的图片。这里有一个非常巧妙的设计,叫做“特征重映射 (Feature Remapping)”。在训练时,模型并不直接用原始图片的三大特征去重建自己,而是会从SCB Group中找一个“亲戚”的特征来替换掉自己的一部分。比如,在重建图片A时,故意把它的背景特征换成同一Group里图片B的背景特征。

  • 这种“捣乱”的方式,其实是给模型的学习增加了难度,迫使它不能走“捷径”。如果背景特征里偷偷包含了文字风格的信息,那替换背景后,重建出的图片风格就会出错,导致损失变大。


从实验结果可以看到文字识别的准确率、FID和图像保真率(SSIM、PSNR)绝大多数都超过了之前的方法。

同时,这个框架也可以有其他的功能:

  • 风格替换:保持文字内容和背景不变,把文字换成另一种字体风格。
  • 背景迁移:保持文字内容和风格不变,把整段文字“搬”到一张全新的背景图上。

2 Flux-Text


场景文本编辑的任务是在图像中修改或添加文本,同时保持新生成文本的保真度和与背景的视觉一致性,仍然面临挑战,经常生成不准确或无法识别的字符,特别是对于具有复杂字形结构的非拉丁文(如中文)。


文本编辑问题:给定一张图像img和一个提示 text,有一个文本行集合。其中每个​表示在区域内要编辑的文本,n 表示文本行的数量。

为了高保真度和可靠的编辑结果,使用了最先进的 T2I 编辑模型 FLUX-Fill,如图所示。在扩散流程(图(a))中,原始图像特征 和掩膜图像特征是通过对原始输入图像和与文本区域对应的掩膜图像应用 VAE得到的。为了增强文本编辑性能,分别通过视觉嵌入模块和文本嵌入模块导出基于字形的条件和文本条件​。随后,通过前向扩散过程生成噪声潜在图像特征,其中 t 表示时间步长。使用 DiT 去噪器 ​ 来估计添加到噪声潜在图像中的噪声,目标函数如下:

其中 Ld​ 表示RF损失。
为了增强 FLUX-Fill 的场景文本编辑能力,需要将字形条件注入 DiT 模型 ​。然而,如何注入字形条件仍然是一个未解的问题。因此,在视觉和文本嵌入模块中设计了几种不同类型的字形注入方式,并通过充分的消融研究找到最佳方案。通常,文本区域只占据图像的一小部分。仅使用 RF 损失 ​, 可能无法专注于处理文本区域。因此,提出了一种文本感知损失函数,使去噪器 能够专注于学习文本区域,从而增强文本编辑效果。

准确地编辑多行文本尤其具有挑战性,尤其是在处理复杂多笔画字符时。这主要是由于难以融入丰富的细粒度信息,从而限制了去噪器有效引导文本编辑的能力。为了解决这些问题,在视觉嵌入模块中探索了多种不同的字形嵌入设计,并找到了最适合文本编辑的一种。边缘注入(Edge Injection):使用字形的边缘信息来增强文本编辑能力 。直接使用传统的 Canny 算法进行边缘检测。然后,对边缘图像应用 VAE 编码器以获取与字形相关的信息。最终的基于字形的条件表示为:

在此注入方式中,得益于 VAE 强大的编码能力,充分的字形条件被注入到 DiT 去噪器中,并且由于参数较少,训练过程更加稳定。

由于大多数预训练的文本编码器(例如 T5)是基于拉丁字母数据集开发的,它们在理解其他语言(如中文字符)时往往表现不佳。此外,尽管这些文本编码器擅长从图像描述中提取语义信息,但用于渲染的文本的语义内容通常非常有限,这限制了其有效引导文本生成的能力。为了解决这些问题,先前的方法 提出了一些解决方案,将文本的语义信息编码为文本嵌入以增强编辑能力。将这些方法分为两类:OCR 注入和 ByT5 注入。以下是对这两种方法的详细描述。

OCR 注入:我们将字形文本行转换为图像(如图所示),从而捕捉字形信息,并用其替代原本从描述文本标记中获得的嵌入向量。这些修改后的嵌入向量随后作为标记输入到预训练的文本编码器中,以生成最终的文本嵌入。文本表示融合了文本字形和描述语义两方面的信息,其表达如下:

其中,y′ 是从 y 处理得到的描述文本,其中每个待编辑的文本行都被替换为指定的占位符 S∗。经过分词和嵌入查找(记作 ϕ(⋅))后,获得描述文本的嵌入向量。随后,每行文本被可视化为一张图像​,即通过将单行文本居中放置在图像上生成。图像输入到一个 OCR 模型 (具体为 PP-OCRv3 )中,以提取全连接层之前的特征用于文本嵌入。接着使用一个 MLP 层 ξ 使其尺寸与描述文本的嵌入向量一致,并替代 S∗ 的嵌入。最后,所有词嵌入通过预训练的文本编码器进行编码,得到最终的文本表示。

实验结果

总结

本周主要看了两篇场景文本编辑的论文,对模型改进的方法是通过数据集构建、损失函数的构建,比如TripleFDS的SCB对比数据集,构建了很好的损失函数,提升解缠模块的特征提取能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式理论的认知重构:CAP 与 BASE 的真相、边界与实践逻辑 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Python中的JSON处理(标准库)

一、什么是JSON? JSON(JavaScript Object Notation)是一种基于文本的开放标准,用于表示结构化数据。它采用键值对的形式组织数据,支持以下基本数据类型: 字符串(string)数字&#…

Multi-Content GAN for Few-Shot Font Style Transfer(用于少样本字体风格迁移的多内容GAN)

预训练和正式训练,预选练是正式训练的第一阶段但二者损失不同注意:本论文是对字母的风格迁移在未来对汉字进行风格迁移时预训练的笔画划分(或常用字形)可能存在挑战预训练:通过对抗网络对26个字母的平均字形进行学习。…

主流 AI IDE 之一的 Claude Code 介绍

Claude Code 是 Anthropic(Claude AI 的开发公司)于 2025 年推出的代理式(agentic)编码工具,目前被公认为终端里最强的 AI 编程助手之一。它直接运行在你的终端(Terminal / PowerShell / cmd)&a…

两两交换链表中的节点-day04

两两交换链表中的节点 题目链接:https://leetcode.cn/problems/swap-nodes-in-pairs/solutions/444474/liang-liang-jiao-huan-lian-biao-zhong-de-jie-di-91/ 思路:新建头结点,保存第1结点,第2个结点,第3个结点的…

Mars-Admin 基于Spring Boot 3 + Vue 3 + UniApp的企业级管理系统

Mars-Admin 企业级管理系统 🔥 开箱即用的企业级全栈管理系统 🔥 一套基于 Spring Boot 3 Vue 3 UniApp 的现代化企业管理平台,采用前后端分离架构,提供完整的权限管理、用户管理、移动端支持等功能,是中小企业快速…

2026必备!继续教育TOP9AI论文写作软件测评与推荐

2026必备!继续教育TOP9AI论文写作软件测评与推荐 2026年继续教育AI论文写作工具测评:精准筛选,高效助力学术创作 随着人工智能技术的不断进步,AI论文写作工具在继续教育领域的应用愈发广泛。对于需要撰写论文、发表研究成果的学员…

贵金属回收攻略:本地高价回收不踩坑,今日金价实时更新 - 非研科技

贵金属回收避坑指南:这 3 个套路一定要避开 1. 警惕“高价吸引,低价结算” 部分非正规商家会在网上标注“黄金回收 450 元/克”的超高价,吸引客户到店后,再以“纯度不足”“有磨损”“要扣手续费”等理由压低价格,…

MFC 对话框Alt+F4退出程序实例

MFC 对话框应用程序按AltF4退出程序实现方法 重写OnSysCommand函数 1.添加消息处理函数 在对话框类的头文件(.h)中添加: protected:virtual void OnSysCommand(UINT nID, LPARAM lParam);DECLARE_MESSAGE_MAP()2.在实现文件(.cpp&…

SonarQube-开源的持续代码质量检测平台

一、SonarQube 核心定义 SonarQube 是一款开源的持续代码质量检测平台,由 SonarSource 公司开发维护。它通过自动化扫描,从代码质量、安全漏洞、可维护性、合规性四大维度对代码进行全方位审查,帮助团队在软件开发生…

AI 模型输出学术内容准确率飙升97%!我只用了这个简单提示词技巧

经常用AI工具辅助学术科研与写作的同仁,可能已经对提示词工程掌握的程度比较深了。为了让模型输出的内容更准确一点,提示词工程师也会研究各种复杂的提示词技巧,比如设定角色、思维链、多样本学习等等。 但最近七哥发现还有一种能提升模型输出内容准确率的方法,该方法出自…

读《大明王朝1566》有感

《大明王朝1566》从一件改稻为桑的事说起,牵扯出大明各个阶层之间的利益斗争。嘉靖年间,一年一度的国家财政会议召开,六部主管向皇上汇报去年的财政支出情况,并上报本年度的财政支出计划。去年财政收支情况依然不容…

亲测好用!10款一键生成论文工具测评,本科生毕业论文必备

亲测好用!10款一键生成论文工具测评,本科生毕业论文必备 学术写作工具测评:为何需要这份2026年榜单? 随着人工智能技术的不断进步,越来越多的学术写作工具被推向市场,帮助学生和研究人员提升论文撰写效率。…

收藏这篇就够了!AI大模型学习路线全解析:从数学基础到实战应用

文章提供了AI大模型从零基础到进阶的完整学习路线,包括数学与编程基础、机器学习入门、深度学习深入、大模型探索、进阶应用及社区资源。详细列出了各阶段的理论学习资源(书籍、课程)和实践项目,并提供了大量学习资源包、视频教程…

2026本科必备9个降AI率工具测评榜单

2026本科必备9个降AI率工具测评榜单 降AI率工具测评:为何你需要一份专业榜单? 在2026年的学术环境中,论文的AI率检测已经成为毕业和科研的关键门槛。许多学生在提交前才发现自己的论文AI率超标,甚至被直接打回修改,严重…

读人本智能产品设计6原则05表达(下)

读人本智能产品设计6原则05表达(下)1. 物体的表达方式 1.1. 随着产品变得更具有互动性和内容驱动性,例如亚马逊的Alexa或苹果的Siri,语音交互成为多模态系统的必要组成部分 1.2. 语音要素必须与灯光、非语音提示、动…

亲测好用10个一键生成论文工具,研究生高效写作必备!

亲测好用10个一键生成论文工具,研究生高效写作必备! AI 工具如何助力论文写作?这些功能你不可不知 随着人工智能技术的不断发展,越来越多的研究生开始借助 AI 工具来提升论文写作效率。在当前学术研究中,AI 降重工具不…

AI产品经理必修课:拆解大模型落地的关键能力与实战技巧

文章从四大维度系统阐述了AI产品经理的必备能力:两大定律(AI能力定律和AI提效定律)强调判断力的重要性;五要素(业务人员参与、AI能力认知、编程能力、小处着手、老板支持)确保大模型成功落地;技…

AI大模型学习路线(非常详细)收藏这一篇就够了!从零基础到进阶的完整指南+免费资源包

本文提供了AI大模型从零基础到进阶的完整学习路线,涵盖数学基础、编程技能、机器学习、深度学习及大模型应用等阶段,并推荐各阶段优质学习资源和实战项目。文章还分享了免费获取AI大模型学习资料的方法,帮助程序员系统掌握大模型技术&#xf…

大模型六大热门岗位详解:从入门到精通的必学路径,大模型职业发展指南

本文解析大模型领域六大类岗位(技术研发、算法、数据、产品、深度学习和垂直领域)的职责与要求,提供从入门到精通的系统学习路径,帮助读者掌握大模型技术,找到适合的职业方向,并附有免费学习资源。AI行业人…