UniHetero:在200M+大规模数据下,生成任务能否促进视觉理解?

多模态大模型的研究中,将视觉理解与视觉生成统一在一个模型中已成为主流趋势,典型的代表工作包括 Chameleon 和 Emu3.5 。然而,业界对于“生成任务能否促进理解能力”这一问题仍存在争议。

尽管在小规模数据(<100M)上,部分研究观察到了正向增益,但在大规模生产环境(>100M)中,引入生成任务往往伴随着理解性能的下降。这背后的核心矛盾之一是表征的冲突:理解任务依赖高维语义表征,而生成任务依赖低维纹理表征。

近期提出的UniHetero 通过在200M+ 预训练样本上的大规模实验,消融分析了生成与理解任务的相互作用。本文将基于UniHetero的核心实验结果,探讨在大规模数据下实现两者协同的有效路径。

01. 核心结论:数据 Scaling 趋势分析

UniHetero 首先通过消融实验,展示了不同训练目标随着数据规模增加对理解能力的影响。

1.1 语义自回归带来更优的 Scaling 趋势

如图 4 所示,作者对比了基线模型(只有文本生成)与引入视觉语义自回归损失(+ploss)的模型。

数据解读:

  • 蓝色实线 (Baseline):仅使用文本生成自回归。

  • 橙色实线 (+ploss):在 Baseline 基础上,增加对视觉语义特征的自回归预测。

  • 趋势分析:在训练初期,增加视觉生成的模型性能偏低。然而,随着训练步数和数据量的增加,增加视觉语义自回归策略展现出了斜率更高的增长趋势,并在后期超越了 Baseline。

这表明,在语义层面进行生成任务训练,能够提高模型对视觉数据的利用效率,从而在大规模数据下获得更好的理解能力。现在多模态预训练的数据利用率不高,以图文对齐数据为主。数据处理主要在文本侧做功,文本用原始数据质量差、用合成数据存在模板化和幻觉问题、还有短文本无法描述图像细节等问题,导致基于图文对齐数据难以激发出有效的>

原因分析:这验证了前文提到的表征冲突。像素级生成需要关注低维纹理细节,其产生的梯度回传至 LLM 后,干扰了 LLM 对高维语义信息的建模。因此,在多模态大模型(VLM)中,生成促进理解的关键是:在 LLM backbone 上进行的生成任务应当限定在语义表征层面,而非直接操作像素。

02. 定性分析:语义表征学到了什么?

为了进一步探究视觉语义自回归(ploss)为何能提升理解能力,作者对模型学习到的“语义表征”进行了可视化分析。具体做法是:先根据文本生成视觉语义特征,再利用该特征重建文本。

观察图 7 的重建结果(第四列):

  • 对象与属性:生成的图像还原了原图中的核心对象(如猫、湖泊河流)及其属性(颜色、大致形状)。

  • 空间关系:对象之间的位置关系(如玩具球在猫左边)得到了保留。

这一结果表明,通过语义自回归任务,LLM 实际上是在学习一种高度压缩的视觉概念抽象。这种抽象能力正是视觉理解任务所必须的,因此解释了为何视觉语义自回归能在理解能力上取得提升。

此外,图 6 展示了模型在单张图像上的过拟合实验,证明了该异构架构在理论上具备像素级生成的潜力。

03. 方法论:架构设计与输入端自回归

UniHetero 能够实现上述效果,主要归功于其解耦的架构设计与特定的自回归策略。

3.1 异构架构

现有多模态统一生成和理解架构,将语义表征和像素表征混合在一起输入到 LLM 中。为了减少表征冲突,Bagel 将视觉表征和 LLM 的参数都拆分成理解任务专用和生成任务专用,用减少任务间模态融合的潜力,换取多任务的性能保留。更具有理想态的方式重训具有统一表征的视觉编码器(Vision Encoder),相当于将表征融合难题进行前置,其难度较大,业界在离散编码表征上有一定进展(UniTok),但在多模理解头部模型使用的连续表征上还在探索中。

UniHetero 工作另辟蹊径采用了异构表征方案,如图 1 所示:

  • LLM Backbone:使用连续的 DINOv2 特征作为语义表征,输入 LLM 做视觉语义自回归。

  • Vision Decoder:使用 VAE 的像素表征通过模态独立的 Decoder 进行解码。

该方案对 LLM 侵入性低,也无需重训 Vision Encoder,能够广泛应用于多模理解头部模型,用简单且简洁的方式实现了生成和理解的统一。

3.2 Input Embedding 上的自回归

传统的自回归通常预测 Vision Encoder 的输出,而 UniHetero 提出直接在 LLM 的Input Embedding空间进行预测。公式如下:

其中,目标是最小化预测 Embedding 与真实 Input Embedding 之间的余弦距离。

如表2的消融实验进一步证实了这一设计的有效性。数据显示,ema-mlp-llm-cos(拟合 Input Embedding)的性能优于 mlp-cos(拟合 Vision Encoder 输出)。这是因为从 LLM 输出层映射回输入层(z→e)比映射回原始特征空间(z→x→e),减少了两次(D维到ds维、ds维到D维)的特征空间转换,具有更小的累积误差。

进一步地,该方案可以扩展为进行全模态融合的有效方式,因为在 LLM 内进行自回归是模态无关的,视觉、语音和文本均可以此方式进行自回归来学习并融合各自模型的知识。近期的文本扩散模型和 VL-JEPA 等工作,也说明了基于连续表征空间进行文本生成的有效性。

04. 工程策略:缓解训练不一致

虽然该工作的重点不在像素级图像生成,其在附录中也探讨了图像生成的质量提升,从缓解训练和推理差异上提出了有效的优化策略。

4.1 训练阶段:Mask-Rate Scheduler

作者发现 mask-rate 对图像生成质量影响大。在训练阶段通常使用较大的 mask-rate(在 0.7 以上)来促进学习,而在推理阶段的 mask-rate 会经历从 0 到 1 的全部过程,其中大部分 mask-rate 在训练阶段并没有见过。因此,作者提出高斯采样 mask-rate scheduler,在训练阶段使其值域覆盖 0 到 1,但均值为 0.7,从而缩小训练和推理的差异。

如图 8 所示,经过优化后的图像生成质量有显著提升,尤其是最后两行的狗和酒杯的生成质量,有明显的改善,说明了缓解训推不一致能提升图像生成效果。

4.2 推理阶段:Inference-time Scaling

除了训练阶段,该工作还进一步考虑在推理阶段来缓解训推不一致问题。在训练阶段采用 teacher forcing,即生成依赖的上下文是正确的图像 token;然而,在推理阶段时,依赖的上下文是推理出的图像 token,与训练情况不一致。

为了缓解该问题,如图 9 所示,作者尝试了一种简单的推理阶段优化策略:在生成一轮后,对低质量区域进行随机 Mask 并重新生成,来逼近训练时的场景。这种“多轮修正”的机制显著改善了图像的扭曲和模糊问题,表明存在一种 inference-time scaling 的方式,可以在不影响其他模态生成(i.e. 文本)前提下,来提升视觉生成的质量。

05. 总结

UniHetero 通过大规模实验数据,厘清了多模态模型中“理解”与“生成”的关系。其主要结论可以归纳为:

  1. Scaling 有效性:在 200M+ 数据规模下,统一模型展现出了比单一理解模型更优的 Data Scaling Law,证明生成任务可以促进理解。

  2. 语义优先:这种促进作用主要来源于语义层面的自回归训练。像素层面的训练若处理不当,反而会产生负面干扰。

  3. 预测目标:在 LLM 的 Input Embedding 空间进行自回归建模,是一种高效且模态统一的训练范式。

该研究为大规模多模态统一模型的训练目标设计提供了重要的实验依据和理论参考。

— 完 —

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1120453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一次 ALTER SYSTEM,埋下一个重启雷:Oracle 内存参数与 SPFILE 的真相

你有没有遇到过这种情况&#xff1a;明明刚刚 ALTER SYSTEM 改过参数&#xff0c;数据库也“正常跑着”&#xff0c;可一重启&#xff0c;配置却悄无声息地回到了旧值&#xff1f;这并不是 Oracle 在“抽风”&#xff0c;而是很多 DBA 长期忽略的一个关键机制&#xff1a;内存参…

iOS微信红包助手全功能配置与优化指南

iOS微信红包助手全功能配置与优化指南 【免费下载链接】WeChatRedEnvelopesHelper iOS版微信抢红包插件,支持后台抢红包 项目地址: https://gitcode.com/gh_mirrors/we/WeChatRedEnvelopesHelper 在移动社交应用日益普及的今天&#xff0c;微信红包已成为人们日常互动的…

强烈安利!9款AI论文软件测评,本科生毕业论文必备

强烈安利&#xff01;9款AI论文软件测评&#xff0c;本科生毕业论文必备 2026年AI论文工具测评&#xff1a;为什么你需要这份榜单&#xff1f; 随着人工智能技术在学术领域的广泛应用&#xff0c;越来越多的本科生开始借助AI论文软件提升写作效率、优化内容质量。然而&#xff…

Qt5 朗读语音

Qt5 朗读语音 在.pro文件中添加 QT texttospeech LIBS -lole32main.cpp #include "mainwindow.h"#include <QApplication> #include <windows.h> #include <sapi.h> #include <sphelper.h> #include <QDebug>#include <QTextToSp…

ms-swift支持模型剪枝与知识蒸馏联合压缩方案

ms-swift支持模型剪枝与知识蒸馏联合压缩方案 在大模型参数规模不断突破万亿门槛的今天&#xff0c;一个现实问题愈发凸显&#xff1a;我们能否让这些“巨无霸”真正走进千行百业&#xff1f;从智能客服到车载语音助手&#xff0c;从工业质检到移动医疗&#xff0c;边缘端和实时…

基于PID控制理论优化ms-swift训练速率稳定性

基于PID控制理论优化ms-swift训练速率稳定性 在大模型日益普及的今天&#xff0c;我们早已过了“能不能训出来”的初级阶段。真正的挑战在于&#xff1a;如何在有限算力、复杂任务和异构硬件环境下&#xff0c;让模型稳定地、高效地、自动地完成训练。尤其是在使用像 ms-swift …

USB外设驱动安装:新手教程从零开始

USB外设驱动安装&#xff1a;从“未知设备”到即插即用的实战指南 你有没有遇到过这样的场景&#xff1f; 刚买了一个USB麦克风、开发板或工业传感器&#xff0c;兴冲冲地插上电脑——结果系统弹出提示&#xff1a;“ 未知USB设备 ”、“该设备无法启动&#xff08;代码10&…

基于ms-swift构建行业知识库问答系统的完整路径

基于 ms-swift 构建行业知识库问答系统的完整路径 在金融、医疗、法律等专业领域&#xff0c;一线人员每天面对海量文档与复杂问题&#xff1a;医生需要快速查阅最新诊疗指南&#xff0c;法务要从上百页合同中提取关键条款&#xff0c;工程师得在厚厚的技术手册里定位故障原因。…

web前端开发笔记day11

一、运算符1.1 算数运算符数学运算符也叫算数运算符&#xff0c;主要包括加、减、乘、除、取余&#xff08;求模&#xff09;算数运算符执行的优先级顺序&#xff0c;优先级相同时从左往右执行总结&#xff1a;先乘除&#xff0c;后加减&#xff0c;有括号先算括号里面的1.2 赋…

通过Dism++优化Windows系统运行ms-swift客户端体验

通过Dism优化Windows系统运行ms-swift客户端体验 在越来越多开发者尝试将大模型落地到本地PC的今天&#xff0c;一个常被忽视的问题浮出水面&#xff1a;即便拥有RTX 3090甚至4090这样的消费级旗舰显卡&#xff0c;Qwen3或Llama4这类7B~14B规模模型的加载依然缓慢&#xff0c;W…

Proteus 8.9 LCD显示元件对照表及引脚功能解析

如何在 Proteus 8.9 中正确使用 LCD 显示元件&#xff1f;从引脚定义到仿真实战全解析 你有没有遇到过这种情况&#xff1a;在 Proteus 里连好了单片机和 LCD&#xff0c;代码也烧录了&#xff0c;可屏幕就是不显示内容——要么全黑、要么全是方块&#xff0c;甚至根本没反应&a…

基于 C# 与 PLC 通信的高可靠工业 3D 扫描检测系统

前言智能制造不断的深入&#xff0c;工业现场对高精度、高效率的自动检测需求日益迫切。传统的二维视觉或人工测量方式&#xff0c;在面对复杂曲面、堆叠物料或动态工况时往往力不从心。3D扫描技术凭借其非接触、全轮廓、高密度的数据采集能力&#xff0c;正逐步成为质量控制和…

ms-swift支持动态批处理提升推理吞吐量三倍以上

ms-swift 支持动态批处理&#xff0c;推理吞吐提升三倍以上 在大模型日益普及的今天&#xff0c;一个现实问题摆在每一个AI工程师面前&#xff1a;为什么训练好的模型一上线&#xff0c;面对真实用户的并发请求就“卡顿”甚至“崩溃”&#xff1f;显存明明还有余量&#xff0c;…

使用Dis++清理无用缓存释放磁盘空间存放模型权重

使用Dis清理无用缓存释放磁盘空间存放模型权重 在大模型研发的日常中&#xff0c;你是否经历过这样的场景&#xff1a;正要启动一个关键训练任务时&#xff0c;系统突然弹出“磁盘空间不足”的警告&#xff1f;或者 CI/CD 流水线因缓存堆积而频繁失败&#xff1f;更糟的是&…

ms-swift支持多任务联合学习提升模型迁移能力

ms-swift支持多任务联合学习提升模型迁移能力 在大模型落地浪潮中&#xff0c;一个现实问题日益凸显&#xff1a;企业需要同时处理生成、分类、排序、检索等多种任务&#xff0c;但传统方案往往为每个任务单独训练和部署模型。这不仅带来高昂的算力成本&#xff0c;更导致模型之…

(含代码)使用Python实现基于OpenCV的数字识别系统

综述 2012年iOS应用商店中发布了一个名为FuelMate的Gas跟踪应用。小伙伴们可以使用该应用程序跟踪汽油行驶里程&#xff0c;以及有一些有趣的功能&#xff0c;例如Apple Watch应用程序、vin.li集成以及基于趋势mpg的视觉效果。 燃料伴侣 对此我们有一个新想法&#xff0c;该如…

WPF 截图控件(十):马赛克效果

WPF 截图控件&#xff08;十&#xff09;&#xff1a;马赛克效果标 题&#xff1a;WPF 截图控件&#xff08;十&#xff09;&#xff1a;马赛克效果作 者&#xff1a;WPFDevelopersOrg - 驚鏵原文链接[1]&#xff1a;https://github.com/WPFDevelopersOrg/WPFDevelopers码云…

深度剖析智能小车PCB板原理图的最小系统构建

智能小车最小系统设计&#xff1a;从原理图到稳定运行的实战指南 你有没有遇到过这样的情况&#xff1f;PCB板焊好了&#xff0c;电源灯亮了&#xff0c;下载器也连上了——但MCU就是不跑代码&#xff0c;或者跑着跑着突然复位&#xff1f;更糟的是&#xff0c;传感器数据飘忽不…

如何在Windows上实现专业级虚拟手柄控制:ViGEmBus终极使用指南

如何在Windows上实现专业级虚拟手柄控制&#xff1a;ViGEmBus终极使用指南 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus 你是否曾经梦想过让任何输入设备都变成专业的游戏手柄&#xff1f;现在&#xff0c;这个梦想通过ViGEmBus虚…

Joy-Con Toolkit终极指南:3步快速上手,解锁手柄全部隐藏功能

Joy-Con Toolkit终极指南&#xff1a;3步快速上手&#xff0c;解锁手柄全部隐藏功能 【免费下载链接】jc_toolkit Joy-Con Toolkit 项目地址: https://gitcode.com/gh_mirrors/jc/jc_toolkit Joy-Con Toolkit是一款专为任天堂Switch手柄设计的开源控制工具&#xff0c;通…