在人工智能图像生成的战场上,一个令人头疼的问题始终困扰着研究者们:如何让计算机在生成的图片中写出清晰、准确的文字?就像一个刚学会画画的孩子,AI模型虽然能画出美丽的风景和栩栩如生的人物,但一旦需要在图片中加入文字,往往就会出现歪歪扭扭、难以辨认的"鬼画符"。
这项由阿里巴巴AIDC-AI团队的王国华等人领导的研究发表于2025年11月,研究团队在arXiv上发布了题为"Ovis-Image Technical Report"的技术报告。有兴趣深入了解的读者可以通过论文编号arXiv:2511.22982v1查询完整论文,或访问团队的GitHub项目页面。
传统的文字渲染就像是给一个巨型机器人教写字一样困难。那些表现优秀的AI图像生成模型,比如GPT4o或Gemini,要么需要几百亿个参数才能写好字,就像需要一个超级大脑才能完成任务;要么是封闭的商业系统,普通研究者无法深入了解其工作原理,更别说根据自己的需求进行定制了。这种情况就好比你想学做一道菜,但大厨们要么收费昂贵,要么严格保密配方。
研究团队之前开发的Ovis-U1模型虽然在多个任务上表现不错,但就像一个刚入门的书法学习者,虽然能写字,但字迹还不够工整,特别是在处理复杂文字内容时容易出现错误。面对这个挑战,阿里巴巴的研究团队决定专门为文字渲染量身定制一个全新的模型。
他们的解决方案名为Ovis-Image,这是一个仅有70亿参数的文字图像生成模型。相比那些动辄几百亿参数的庞大模型,Ovis-Image就像一个轻巧但技艺精湛的工匠,能够在普通的高端显卡上运行,却能产出媲美那些巨型模型的文字渲染效果。
一、模型架构:巧妙的积木组合方案
Ovis-Image的设计理念就像搭建一个精密的乐高城堡,每个组件都有其特定的功能,彼此配合形成一个高效的整体。整个模型由三个主要部分组成,就像一个制作精美海报的工作坊。
首先是文字编码器,研究团队选择了Ovis 2.5作为大脑中枢。这个编码器就像一个精通多国语言的翻译官,能够深度理解用户输入的文字描述,不仅仅是表面的词汇含义,还能捕捉到其中的语境、情感和视觉要求。与那些通用的语言模型不同,Ovis系列专门针对多模态任务进行了训练,就像专业的美术指导比普通翻译更懂得如何将文字描述转化为视觉指令。
模型的核心是一个70亿参数的MMDiT(多模态扩散变换器),这就像整个工作坊的主要生产线。这个组件采用了6个双流块和27个单流块的架构设计,注意力头数量增加到24个。如果把图像生成比作编织一幅复杂的挂毯,那么这些注意力头就像是同时工作的多个熟练织工,每个都专注于处理画面的不同细节,有的负责整体构图,有的专门处理文字部分,有的关注色彩搭配。
第三个关键组件是VAE解码器,研究团队直接采用了FLUX.1-schnell的VAE模型并保持其参数冻结。这个解码器就像最后的印刷机,负责将前面两个组件生成的抽象指令转换成最终的像素图片。通过使用现成的高质量解码器,研究团队能够专注于优化前面两个组件的协同工作,而不必从零开始训练所有部分。
整个模型总参数量达到100亿,但其中只有73.7亿参数需要训练,大大降低了计算成本。这种设计就像在建造房屋时,选择使用一些现成的优质建材,而将精力集中在关键的结构设计上,既保证了质量又提高了效率。
二、数据配置:精心调制的营养大餐
训练一个优秀的AI模型就像培养一个世界级的厨师,需要让他品尝各种不同风味的菜肴,积累丰富的经验。Ovis-Image的训练数据就像是一份精心搭配的营养大餐,包含了多个不同阶段的"菜谱"。
预训练阶段的数据就像是基础的营养补充。研究团队收集了大量来自网络、授权内容和合成数据的图文对,涵盖日常照片、插画、设计素材和用户界面样例。这些数据的描述文字从简短的标题到详细的指令式描述都有,就像让学徒厨师从简单的煎蛋开始,逐步接触复杂的法式料理。
为了确保模型能够准确理解图片中的文字内容,研究团队进行了大规模的中英文重新标注工作。这就好比为每道菜重新写一份详细的制作说明书,确保每个步骤都清晰明确。特别值得注意的是,他们还加入了专门的文字渲染数据,包括海报、横幅、标志和界面布局等,让模型从一开始就接触到大量包含文字元素的视觉内容。
为了提高数据质量,研究团队实施了多阶段过滤流程,就像严格的质量检查员,通过简单规则、轻量级模型和跨模态一致性检查来剔除损坏的图像、严重不匹配的说明文字,以及不符合基本安全政策要求的内容。他们还进行了粗粒度去重,减少近似重复的图像和提示词,确保模型不会因为重复学习相同内容而产生偏见。
监督微调阶段的数据则更像精心挑选的高级食材。研究团队策划了一个更高质量的图文对子集,重点关注清晰的视觉效果和格式良好的提示词。与预训练阶段相比,这个阶段的数据集向更高分辨率图像倾斜,通常达到1024像素,并涵盖广泛的宽高比以更好地匹配实际使用场景。
DPO阶段的数据构建就像组织一场美食品鉴会。研究团队构建了一个偏好数据集,其中约90%来自覆盖常见物体类别和日常场景的高质量生成内容,这些图像具有强烈的美学品质。这些图像通过多个自动评分器的预先筛选,包括HPSv3、CLIP、PickScore等相关指标,确保只有既具有良好视觉吸引力又具有合理提示对齐度的样本才被保留。剩余的10%来自内部收集,专注于设计和创意内容,如海报、插画和风格化作品,让模型接触更结构化的布局和非摄影风格。
GRPO阶段的数据则专门针对文字渲染能力进行强化训练。这个阶段的提示分布刻意不同于DPO阶段使用的分布,专注于一套紧凑的文字渲染提示,重点考验模型在图像中放置和设置文字样式的能力。这些提示覆盖中文和英文,跨越各种字体和布局,包括海报、标题卡、界面元素和产品标签,难度从短标语到较长的多行短语不等。
三、训练流程:四个阶段的进化之路
Ovis-Image的训练过程就像培养一个专业艺术家的完整教育历程,分为四个渐进的阶段,每个阶段都有其独特的教学目标和方法。
预训练阶段就像艺术学院的基础课程。在这个阶段,MMDiT从随机初始化开始,就像一张白纸一样等待被填充知识。而文字编码器和VAE则使用预训练权重并在训练期间保持冻结状态,就像经验丰富的老师提供稳定的指导。训练目标遵循流匹配风格扩散模型中常用的标准噪声预测损失,这就像教学生掌握绘画的基本技法。
模型最初在256×256像素的图像上进行训练,就像学生先在小画布上练习基本功。随后训练扩展到不同分辨率和宽高比的图像,分辨率从512到1024像素不等,宽高比从0.25到4.0,这就像逐步让学生适应不同尺寸和形状的画布。研究团队使用AdamW作为优化器,配合恒定学习率调度和简短的线性预热期,确保模型能够稳定地学习基础技能。
监督微调阶段就像从基础课程转向专业训练。在这个阶段,模型从通用的标题数据转向针对常见文字图像使用场景定制的指令式监督。从预训练检查点开始,研究团队在开放和专有数据集的混合上对MMDiT进行微调。这个阶段不仅教会模型画什么,还教会它如何解释指令式描述、约束条件和文字渲染要求。
训练目标仍然是与预训练相同的噪声预测损失,应用于最高1024分辨率、不同宽高比的图像潜在表示,使模型学会在推理时处理可变输入尺寸和宽高比。研究团队使用较小的学习率和较短的调度,这有助于保持预训练期间学到的一般视觉能力,同时适应指令式和文字渲染分布。
DPO阶段就像让学生参加艺术评比,学会什么样的作品更受欢迎。在这个阶段,研究团队直接对扩散模型应用直接偏好优化,使用人类和模型生成偏好数据的混合。每个训练样例包含一个提示词和两个图像,其中一个被标记为首选(获胜者),另一个被标记为不首选(失败者)。模型需要学会为导致首选样本的去噪轨迹分配更高的概率。
研究团队保持一个在监督阶段结束时的冻结参考模型,将当前图像解码器视为需要训练的策略模型。对于每一对样本,他们计算DPO风格的对数似然比,并最小化标准的Diffusion-DPO目标函数。这个过程就像让模型学会区分优秀作品和平庸作品的差异,逐步提高自己的审美水平。
特别重要的是,研究团队还采用了Diffusion-SDPO的获胜者保护机制。这个机制就像在比赛中设立保护规则,确保在提升整体表现的同时,不会损害已经表现良好的部分。通过计算梯度缩放因子来稳定优化过程,当失败者梯度与获胜者梯度冲突时,系统会自动减小失败者分支的权重,从而隐式地限制过于激进的失败者更新并保护首选分支的质量。
GRPO阶段就像最后的专业技能强化训练。在经过DPO训练后,研究团队使用群体相对策略优化对模型进行精炼,在训练期间进行在线采样并使用一组奖励模型进行评估。对于每个提示词,模型生成多个候选图像作为一组,然后通过奖励模型组合进行评分。
在这个阶段,模型会为每个提示条件预测一组图像及其对应的轨迹。每个图像在组内的优势通过其奖励分数与组内所有图像奖励分数的平均值之差来计算,并进行标准化处理。训练目标是优化期望奖励,同时应用KL惩罚来约束其与DPO模型的分歧。
为了在最小化对性能影响的情况下加速训练,研究团队使用较少的去噪步骤对每个候选图像进行采样。他们还在GRPO阶段引入了系数保持采样技术,进一步提升性能。训练窗口自适应学习不同去噪阶段的需求,整个过程中策略被优化以最大化期望奖励,同时保持与DPO模型的适当距离。
四、评估结果:小身材展现大能力
Ovis-Image的表现就像一个轻量级拳击手在重量级比赛中大放异彩,虽然参数量远小于竞争对手,却在多个关键指标上取得了令人印象深刻的成绩。
在文字渲染能力的专项测试中,Ovis-Image表现得就像一个精通书法的艺术家。在CVTG-2K基准测试中,这个包含2000个提示词的英文渲染评估挑战每个模型在生成图像中渲染2到5个英文文本区域。Ovis-Image在所有区域的整体单词准确率方面获得了最高分数,达到92%,而参数量是其近三倍的Qwen-Image仅达到82.88%。在标准化编辑距离和CLIPScore指标上,Ovis-Image同样表现出色,进一步确认了其卓越的文字渲染能力。
在长文本生成能力测试中,Ovis-Image展现出了特别突出的中文处理优势。在LongText-Bench这个专门检验模型准确渲染英文和中文长文本能力的基准测试中,Ovis-Image在中文文本生成方面取得了96.4%的得分,超越了包括GPT4o在内的所有竞争对手。在英文长文本生成方面,尽管模型参数相对较小,Ovis-Image仍然达到了92.2%的高分,与那些参数量更大的模型表现相当。
在通用文字图像生成能力方面,Ovis-Image就像一个全能型运动员,在多个不同类型的比赛中都能取得优异成绩。在DPG-Bench这个包含1000个密集提示词的基准测试中,该测试从多个维度评估文字图像生成的对齐质量,Ovis-Image在实体识别、属性理解和关系处理等关键指标上都表现出了强劲的竞争力,证明了其在理解和执行复杂视觉指令方面的能力。
GenEval基准测试专注于通过使用构图提示和广泛的对象属性来强调以对象为中心的文字图像生成。在这个测试中,Ovis-Image展现了出色的可控生成能力,在单对象生成、颜色控制和属性绑定等多个子任务中都取得了竞争性的结果,证明了模型在理解和渲染复杂视觉概念方面的强大能力。
在OneIG-Bench这个为详细评估文字图像模型跨多个维度而开发的综合基准测试中,Ovis-Image展现了卓越的双语性能,特别是在文字维度上的表现尤其突出。在英文测试中,模型在文字处理方面获得了91.4%的高分,在中文测试中更是达到了96.1%的优异成绩,充分展示了其在多语言文字渲染方面的技术优势。
特别值得关注的是计算效率方面的表现。在相同的测试条件下(1024×1024图像,50步采样,BF16推理),Ovis-Image在A100 GPU上仅需要24959MB内存,推理时间为30.56秒;在H100 GPU上需要24276MB内存,推理时间为13.74秒。相比之下,参数量更大的Qwen-Image需要59329MB内存和更长的推理时间。这种效率优势就像一辆省油的跑车,不仅性能出众,还能在资源有限的环境下稳定运行。
五、技术创新:巧妙的工程智慧
Ovis-Image的成功并非偶然,而是源于研究团队在多个关键技术点上的精心设计和巧妙创新。这些创新就像烹饪中的独门秘方,看似简单却蕴含着深厚的技术积淀。
首先是架构设计上的智慧选择。研究团队没有盲目追求模型规模的扩大,而是选择了一个平衡点:保持足够的模型容量来处理复杂的文字渲染任务,同时确保模型能够在常见的硬件配置上高效运行。这种设计哲学就像建筑师设计房屋时既要保证功能完备,又要控制建设成本,需要在各种约束条件下找到最优解。
MMDiT架构的选择特别精妙。通过采用6个双流块和27个单流块的结构,模型能够在处理文字和图像信息时采用不同的策略。双流块就像双眼视觉,能够同时处理文字指令和视觉信息的交互;单流块则像专注的工匠,深度处理已经融合的多模态信息。24个注意力头的配置进一步提升了模型对细节的捕捉能力,特别是对文字位置、字体样式和颜色等关键属性的精确控制。
训练策略上的渐进式设计也体现了深刻的技术洞察。四阶段训练就像培养运动员的科学训练法,从基础体能训练开始,逐步过渡到专项技能训练,最后进行实战对抗训练。每个阶段都有其特定的学习目标,避免了一开始就让模型面对过于复杂的任务而导致的学习困难。
特别值得注意的是GRPO阶段的设计。与传统的训练方法不同,这个阶段专门针对文字渲染任务进行了定制化的强化学习训练。通过让模型生成多个候选图像并进行群体内比较,模型能够学会什么样的文字渲染效果更受欢迎,什么样的字体选择和布局方式更符合人类审美。这就像让艺术家参加多轮作品评比,在竞争中不断提升自己的技艺水平。
数据工程方面的精细化处理也是成功的关键因素。研究团队不仅收集了大量的训练数据,更重要的是对数据进行了精心的筛选和组织。大规模的中英文重新标注工作确保了数据质量,而多阶段的过滤流程则剔除了可能对训练产生负面影响的低质量内容。这种数据处理方式就像精工制表师对每个零件的精密加工,虽然过程繁琐,但最终产品的品质得到了保障。
系数保持采样技术的引入展现了研究团队对训练细节的深度关注。这项技术能够在保持模型生成质量的同时加速训练过程,就像在赛车调校中找到速度与稳定性的完美平衡点。这种技术优化虽然在论文中只是简短提及,但往往是决定模型实用性的关键因素。
六、应用前景:开启AI创作新时代
Ovis-Image的出现就像为创意工作者们送来了一个得力助手,它的应用前景涵盖了从专业设计到日常创作的广阔领域。
在平面设计领域,Ovis-Image就像一个永不疲倦的设计师助手。传统上,设计师们需要花费大量时间来处理文字排版和视觉效果的协调,现在他们可以通过简单的文字描述就生成包含精美文字效果的设计稿。无论是海报制作、横幅设计还是产品包装,设计师们都能够快速获得高质量的初稿,然后在此基础上进行进一步的创意发挥。
在内容营销方面,Ovis-Image为中小企业和个人创作者提供了强大的工具。过去需要专业设计技能才能制作的营销素材,现在普通用户也能够轻松创建。电商商家可以快速生成包含产品信息和促销文字的宣传图片;社交媒体运营者可以制作吸引眼球的标题图像;内容创作者可以为自己的文章配上合适的配图。
教育领域也将从这项技术中受益匪浅。教师们可以利用Ovis-Image快速制作包含关键知识点的教学图表和信息图表。学生们在制作演示文稿或学习报告时,也能够更轻松地创建专业级别的视觉内容。这种技术降低了优质教学材料制作的门槛,有助于提升教学效果和学习体验。
在出版和媒体行业,Ovis-Image可以大大提升内容制作的效率。新闻媒体可以快速生成配图文字;图书出版社可以制作书籍封面和内页插图;杂志编辑可以创建各种版式设计。这不仅节省了制作成本,还能够在紧迫的时间压力下保证内容质量。
对于个人用户而言,Ovis-Image开启了全民创作的新可能。普通人现在可以制作个性化的生日贺卡、婚礼邀请函、旅行纪念册等个人作品。社交媒体上的个人品牌建设也变得更加容易,用户可以创建具有统一视觉风格的内容系列。
更重要的是,Ovis-Image的开源特性为技术的进一步发展和应用创新提供了可能。开发者们可以基于这个模型构建各种专门化的应用,比如针对特定行业的设计工具、集成到现有工作流程中的插件,或者面向特殊需求的定制化解决方案。
随着技术的不断完善,我们可以期待看到更多创新应用的出现。比如实时的设计建议系统,能够根据用户的内容自动推荐最适合的视觉风格;智能的品牌一致性检查工具,确保企业所有视觉材料都符合品牌规范;或者跨语言的设计自动化系统,能够同时处理多种语言的文字渲染需求。
归根结底,阿里巴巴团队通过Ovis-Image向我们证明了一个重要观点:出色的AI能力不一定需要庞大的模型规模和昂贵的计算资源。通过精心的架构设计、巧妙的训练策略和细致的工程优化,完全可以在有限的资源约束下实现卓越的性能。这种技术路线为AI技术的普及和实际应用开辟了新的可能性,让更多的个人和组织能够享受到人工智能带来的便利。
Ovis-Image的成功也为整个AI研究领域提供了有益的启示:与其一味追求模型规模的扩大,不如专注于针对特定任务的深度优化。这种专门化的技术路线不仅能够在特定领域取得更好的效果,还能够大大降低部署和使用的门槛,真正实现AI技术的民主化。
对于普通用户而言,Ovis-Image代表着一个新时代的开始——一个每个人都能够轻松创作专业级视觉内容的时代。无论你是设计新手还是创意专家,无论你的需求是简单的个人项目还是复杂的商业应用,这项技术都为你提供了强大而易用的创作工具。随着类似技术的不断涌现和完善,我们有理由期待一个更加创意丰富、表达多样的数字世界的到来。
Q&A
Q1:Ovis-Image相比其他文字图像生成模型有什么优势?
A:Ovis-Image虽然只有70亿参数,但在文字渲染能力上可以媲美参数量更大的模型如Qwen-Image。它最大的优势是可以在单个高端GPU上运行,部署成本低,同时在中英文文字渲染方面表现出色,特别是在中文长文本生成上达到了96.4%的准确率。
Q2:普通用户如何使用Ovis-Image生成带文字的图片?
A:目前用户可以通过阿里巴巴AIDC-AI团队提供的GitHub项目或HuggingFace模型库访问Ovis-Image。用户只需要输入包含文字要求的描述,比如"制作一张海报,上面写着'欢迎来到我的店铺'",模型就能生成相应的图像。
Q3:Ovis-Image能处理哪些类型的文字渲染任务?
A:Ovis-Image擅长处理多种文字渲染场景,包括海报制作、横幅设计、产品标签、用户界面元素、标题卡片等。它支持中英文双语,能够处理从简短标语到较长多行文字的各种需求,字体样式和布局都可以通过描述来控制。