本文汇总了2025年11月多模态大模型领域的8篇前沿论文,涵盖视频理解生成、视觉语言对齐、模型训练策略等多个方向。UniVideo实现视频统一处理,COCO-Tree提升组合推理能力,FG-CLIP 2优化双语理解,ViSurf和SRUM改进训练与生成能力,UniFlow创新视觉分词方法,AttWarp和ViCO分别优化感知效率和分辨率处理。这些开源框架为AI开发者提供了丰富的技术参考和实践路径。
1.UniVideo: Unified Understanding, Generation, and Editing for Videos
- 论文下载地址:https://arxiv.org/pdf/2510.08377
- 工程主页:https://congwei1230.github.io/UniVideo/
- 开源代码(即将开源):https://github.com/KwaiVGI/UniVideo
文章提出 UniVideo,一款统一视频理解、生成与编辑的多模态框架。其采用双流设计,结合多模态大语言模型(MLLM)解析指令与多模态 DiT(MMDiT)生成视频,兼顾语义理解与视觉一致性。
模型通过三阶段训练,统一文本 / 图像到视频生成、上下文视频生成与编辑等任务,无需任务特定模块。实验表明,其性能比肩或超越现有专项模型,且具备泛化能力:可组合任务(如编辑 + 风格迁移),还能从图像编辑数据迁移至自由形式视频编辑(如绿幕抠像、材质替换)。
此外,支持视觉提示驱动的视频生成,能解读标注类输入。该框架突破了现有视频模型的模态与任务局限,为多模态视频助手奠定基础。
2.(EMNLP2025)COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models
- 论文下载地址:https://arxiv.org/pdf/2510.11012
- 开源代码:https://github.com/sanchit97/COCO-Tree
文章针对视觉语言模型(VLMs)的组合推理短板,提出 COCO-Tree 框架。该框架借助与 VLM 规模相当的 LLM 构建神经符号概念树,通过语义形态分解、递归概念探索生成层级化概念节点,再用贪心或束搜索策略筛选推理路径。
其核心是融合视觉 - 语言复合分数与 VLM 原始输出,既提升组合推理性能,又提供可解释的推理依据。在 Winoground 等四个基准测试中,COCO-Tree 使七种开源 VLMs 的组合泛化能力提升 5%-10%,且资源消耗低、无需大型 LLM 支持。该方法有效弥补了 VLMs 在实体关系理解上的不足,为安全关键领域应用奠定基础。
3.FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
- 论文下载地址:https://arxiv.org/pdf/2510.10921
- 工程主页:https://360cvgroup.github.io/FG-CLIP/
- 开源代码:https://github.com/360CVGroup/FG-CLIP
文章提出双语细粒度视觉语言对齐模型 FG-CLIP 2,旨在解决现有模型在中英双语细粒度理解上的不足。模型采用两阶段训练范式,第一阶段通过长短文本实现全局对齐,第二阶段融入区域文本匹配等细粒度目标,并新增文本模态内对比损失(TIC)以区分语义相似描述。
其训练数据涵盖大规模中英双语图像 - 文本对及区域文本对,还构建了中文长文本检索、边界框分类等基准测试集。实验表明,FG-CLIP 2 在 29 个数据集、8 类任务上均超越现有模型,在双语细粒度对齐、开放词汇检测等任务中表现突出,同时兼顾标准图像分类性能,为双语多模态理解提供了有效解决方案。
4.ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
- 论文下载地址:https://arxiv.org/pdf/2510.10606
- 代码即将开源
文章提出 ViSurf,一种融合监督微调(SFT)与可验证奖励强化学习(RLVR)的单阶段视觉语言大模型后训练范式。其核心是将真实标签作为高奖励样本融入 RLVR 的滚动过程,同时设计三种奖励控制策略(标签与滚动偏好对齐、消除思考奖励、平滑奖励)稳定训练。
理论分析表明,ViSurf 的梯度同时包含 SFT 的外部指导与 RLVR 的内部强化。实验显示,该方法在非目标分割、异常检测等多领域基准测试中,性能超越 SFT、RLVR 及两阶段方法,且有效缓解灾难性遗忘,降低提示工程依赖,为视觉语言模型的高效后训练提供了新方案。
5.UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation
- 论文下载地址:https://arxiv.org/pdf/2510.10575
- 开源代码:https://github.com/ZhengrongYue/UniFlow
文章提出 UniFlow,一款统一视觉理解与生成的像素流分词器,旨在打破传统矢量量化(VQ)分词器的信息损失与模态对齐局限。其核心是采用连续视觉词元表示图像,通过统一自回归 Transformer 架构,将文本离散词元与图像连续词元嵌入同一空间。
模型融合扩散头处理生成任务、分类头应对理解任务,以 “下一个词元预测” 为统一训练目标,通过损失权重调整平衡双任务性能。实验表明,UniFlow 在文本到图像生成、视觉问答等任务中表现比肩单任务模型,且随机顺序生成策略提升了图像保真度,依托强 LLM 主干增强了跨任务泛化能力,为多模态统一建模提供了新路径。
6.Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping
- 论文下载地址:https://arxiv.org/pdf/2510.09741
- 工程主页:https://dwipddalal.github.io/Attwarp/
- 开源代码:https://github.com/dwipddalal/Attwarp
文章提出 AttWarp,一种轻量级测试时图像扭曲方法,旨在解决多模态大模型(MLLMs)在复杂场景中细粒度感知接地不足的问题。其核心是利用 MLLM 的跨模态注意力图,通过矩形扭曲非均匀重采样图像,放大查询相关区域同时压缩无关区域,且保留全局上下文。
该方法无需修改模型权重或架构,通过注意力聚合生成边际注意力分布,指导图像扭曲,还延伸出迭代优化的 AttWarp-Chain 和高效推理的 AttWarp-Distill 变体。实验显示,在 5 个基准测试、4 种 MLLMs 上,AttWarp 持续提升准确率、增强组合推理并减少幻觉,优于 4 种测试时图像操作基线,为 MLLMs 的视觉理解能力优化提供了灵活高效的解决方案。
7.ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution
- 论文下载地址:https://arxiv.org/pdf/2510.12793
- 代码即将开源
文章提出 ViCO 训练策略,旨在解决多模态大模型(MLLMs)因视觉 tokens 过多导致的推理成本高昂问题。其核心是基于语义复杂度动态调整视觉 tokens 数量,通过两阶段训练实现:一致性训练最小化不同压缩率下模型响应的 KL 散度,路由器训练让视觉分辨率路由器(ViR)为每个图像补丁选择合适压缩率。
ViCO 采用多 MLP 连接器下采样视觉 tokens,ViR 以补丁为单位自适应分配 tokens,复杂语义区域保留更多 tokens,简单区域则压缩。实验显示,该方法在 InternVL3.5 系列模型上,可减少高达 50% 的视觉 tokens,同时保持感知、推理及 OCR 能力,推理吞吐量近乎翻倍,为高效 MLLMs 发展提供了有效方案。
8.SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
- 论文下载地址:https://arxiv.org/pdf/2510.12784
- 工程主页:https://waynejin0918.github.io/srum_web/
- 开源代码:https://github.com/WayneJin0918/SRUM
文章提出 SRUM 框架,旨在解决统一多模态模型(UMMs)中理解能力强但生成能力弱的差距。其核心是让模型的理解模块作为 “评估器”,通过自奖励机制提升生成模块性能,无需额外人工标注数据。
SRUM 设计了全局 - 局部双奖励系统:全局奖励保障视觉语义和布局正确性,局部奖励优化目标级细粒度保真度。通过两阶段流程 —— 生成带边界框的候选图像、双奖励评估、奖励加权训练,实现模型自改进。实验显示,SRUM 在 T2I-CompBench 和 T2I-ReasonBench 等基准测试中表现优异,显著提升构图和推理能力,且泛化性强,为 UMMs 的理解与生成协同优化提供了新范式。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓