多模态大语言模型LISA - 详解

news/2025/10/17 10:05:47/文章来源:https://www.cnblogs.com/slgkaifa/p/19147138

多模态大语言模型LISA - 详解

LISA: Reasoning Segmentation via Large Language Model

摘要:

提出当前系统不能够很好的理解用户的真正意图,目前在执行视觉识别任务还是依赖明确的人类指令和预先定义的类别来识别物体
本文贡献:

模型架构

在这里插入图片描述
具体而言,首先在原始LLM词表中添加一个特殊标记 <SEG> (代表分割输出符号)。给定文本指令 xtxtx_{txt}xtxt 和输入图像 ximgx_{img}ximg后,两者被输入到多模态 LLM \mathcal{F},生成文本响应y^txt\hat{y}_{txt}y^txt,该过程可以表述为:
y^txt=F(ximg,xtxt) \hat{y}_{txt} = \mathcal{F}(x_{img}, x_{txt})y^txt=F(ximg,xtxt)
当 LLM 必须生成二值分割掩码时,其输出序列y^txt\hat{y}_{txt}y^txt 将包含 <SEG> 标记。此时,我们提取与该 <SEG> 标记对应的最后一层隐藏状态嵌入 h^seg\hat{h}_{seg}h^seg,并利用一个 MLP 投影层γ\gammaγ进行处理,得到hsegh_{seg}hseg。同时,视觉主干网络Fenc\mathcal{F}_{enc}Fenc 从输入图像 ximgx_{img}ximg中提取密集的视觉特征fff。最后,将 hsegh_{seg}hsegfff 输入解码器 Fdec\mathcal{F}_{dec}Fdec以生成最终的分割掩码M^\hat{M}M^。解码器 Fdec\mathcal{F}_{dec}Fdec的详细结构遵循文献 [19]。该过程可表述为:

hseg=γ(h^seg),f=Fenc(ximg),M^=Fdec(hseg,f). \begin{array}{l} h_{seg} = \gamma(\hat{h}_{seg}), \\ f = \mathcal{F}_{enc}(x_{img}), \\ \hat{M} = \mathcal{F}_{dec}(h_{seg}, f). \end{array}hseg=γ(h^seg),f=Fenc(ximg),M^=Fdec(hseg,f).
创新点

  1. “嵌入即掩码”范式利用LLM的嵌入作为控制信号,将开放词汇的语义理解与分割任务无缝衔接。就是:这是最大的创新点。它不依赖传统的分割头,而
  2. 推理引领分割:模型不是简单地分割“提到的”物体,而是先进行知识推理(判断维生素C含量),再分割“推理得出的”物体。这解决了传统方法无法处理的复杂指令。
  3. 高效的训练策略冻结LLM:在训练时,多模态LLM的主体参数被冻结,只通过LoRA等技能进行高效微调,这大大降低了计算成本,防止模型遗忘已有的语言知识。可训练的解码器:重要训练视觉主干之后的解码器部分,使模型学习如何将LLM的语义指令与视觉特征对齐。
  4. 灵活性:框架中的视觉主干Fenc\mathcal{F}_{enc}Fenc和解码器Fdec\mathcal{F}_{dec}Fdec能够替换为任何先进的分割模型组件(如SAM、Mask2Former),具有良好的扩展性

数据来源

主要来自三个公共分割资料集:

在这里插入图片描述

评价指标

  • glou:所有单张图像交并比的平均值
  • clou:累积交集与累积并集之比

多任务损失函数

LISA的训练目标是一个加权求和的多任务损失函数,这反映了其需要同时优化文本生成分割掩码生成这两个子任务。

BCE损失负责细节轮廓,DICE损失负责整体形状,总损失是文本损失和分割损失的加权和

实验结果

在这里插入图片描述
其中:

  • OVSeg: 一个典型的开放词汇分割模型。它擅长根据给定的类别名称列表(如“猫”、“狗”、“树”)进行分割。但它的查询是“类别名”,而不是自然语言指令,因此难以处理需要常识推理的困难指令(如“分割出最易燃的物品”)。
  • GRES: 一个生成式指代分割模型。它已经向前迈进了一步,行根据简短的描述性短语(如“左边的蓝衬衫”)生成分割掩码。但它仍然侧重于根据外观描述进行定位,而非深层次的推理。
  • X-DecoderSEEM: 这两个都是功能强大的通用多模态模型,集成了多种视觉任务(如分割、检测、识别)。它们具备更强的通用性,但其核心设计目标并非专门针对复杂的、得知识推理的语言指令进行分割。
  • Grounded-SAM: 这是一个非常流行且强大的组合式基线模型。它采用“流水线”方式:先用一个模型(如GLIP)根据文本描述检测出物体的边界框。再将边界框输入分割模型(如SAM)得到掩码。它的性能很强,但LISA的端到端架构(理解、推理、分割一体化)旨在避免这种流水线框架的误差累积问题,并处理更抽象的指令。

LISA-7B/13B: 这是论文的核心模型,默认使用LLaVA v1作为多模态基础模型,(+ft表示)在LISA基础上,应用仅239个推理分割数据样本进行微调的版本(+OVSeg)代表分双阶段分割与本文的端到端的方式进行了对比。其中LLaVA1.5-7B+OVSeg代表最初使用多模态LLM(例如LLaVA v1.5)为输入查询生成文本输出,然后采用引用或开放词汇分词模型(例如OVSeg)生成分词掩码,两阶段是独立的,之间没有反馈,一旦第一阶段文本生成错误,也无法修正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年升降平台车厂家最新推荐口碑排行榜:覆盖多类型产品,聚焦实力厂家,为企业选购提供权威参考剪叉式/手动液压/电动液压升降平台车厂家推荐

在工业生产、仓储物流等领域,升降平台车是不可或缺的关键设备,其质量与性能直接关系到企业运营效率与生产安全。当前市场上,升降平台车品牌繁杂,部分厂家技术落后、工艺不规范、售后不完善,导致企业选购时面临诸多…

供应商图纸协同是什么?主要有哪几个核心原则?

供应商图纸协同是确保制造业供应链高效运作的基础。它不仅涉及图纸和数据的安全传递,也需要关注信息的准确性和及时性。企业通过建立数字平台,可以统一管理图纸及相关文件,加快信息流转。这一过程强调了沟通的重要性…

「Java EE开发指南」用MyEclipse开发的EJB开发工具(二)

「Java EE开发指南」用MyEclipse开发的EJB开发工具(二)如果您需要支持Java EE 5中引入的简化基于注释的POJO编程模型,那么EJB开发工具就是您的正确选择。在此您将了解到:EJB开发工具和EJB项目 持久性支持和EJB项目…

2025 年堆高车厂家最新推荐排行榜:聚焦专利技术、华为等大牌合作案例及国内优质品牌解析手动液压/手动液压/卷筒/油桶堆高车厂家推荐

当前,仓储物流与生产制造行业对堆高车的需求持续攀升,但其市场供给呈现 “质量参差、选型复杂” 的态势。一方面,部分厂家缺乏核心技术,产品故障率高、维护成本高,难以适配高强度作业;另一方面,企业采购时易受低…

chromadb的使用

chromadb的使用from chromadb.config import Settings from chromadb.utils import embedding_functions import os import chromadb # 设置 Chroma 配置 persist_directory = "database" if not os.path.ex…

TResult Funcin T, out TResult的应用

TResult Func<in T, out TResult>的应用在 C# 中,Func<bool, string>是一个委托类型,表示一个接受 bool类型参数并返回 string类型的方法。 // 声明 Func<bool, string> 变量 Func<bool, strin…

2025 年最新推荐!编码器源头厂家排行榜:聚焦无磁 / 光学 / 脉冲等多类型产品,精选行业优质企业

随着工业自动化向高精度、高智能化方向快速迈进,编码器作为闭环控制系统的核心传感部件,市场需求持续攀升,但行业乱象也随之凸显。部分厂家缺乏核心技术,产品精度与可靠性不足,难以适配高端制造场景;售后体系不完…

Excelize 开源基础库发布 2.10.0 版本更新

2025年10月14日,开源电子表格文档基础库 Excelize 发布了 2.10.0 正式版本,该版本包含了 40 多项新增功能、错误修复和兼容性提升优化。Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库,基于 ECMA-376,…

高效搞定outlook大附件怎么发送的方法与技巧

在邮件沟通中,大附件的发送常常是个棘手的问题。为了高效解决这个难题,用户可以采取多种策略。首先,专业的插件如飞驰云联Outlook超大附件插件,能让用户轻松发送超大文件,无需压缩,简化了整个过程。实用技巧结合…

2025年点胶机厂家权威推荐榜:精密点胶设备、自动化点胶系统、桌面点胶机源头厂家综合实力解析

2025年点胶机厂家权威推荐榜:精密点胶设备、自动化点胶系统、桌面点胶机源头厂家综合实力解析随着工业4.0时代的深入发展,点胶技术作为精密制造领域的关键环节,正经历着前所未有的技术革新。从传统的半自动点胶到如…

HAP 签名提取:从定位到解析的实操指南

鸿蒙应用的HAP文件通过嵌入式JSON签名保障分发安全,其签名提取与解析是验证应用合法性的基础。本文聚焦实操,详解从HAP文件中提取签名并解析证书信息的核心流程。 一、签名数据的精准定位 HAP文件的签名信息藏于尾部…

深入解析:Redis List 类型全解析

深入解析:Redis List 类型全解析pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&q…

内外网文件传输工具有哪些?最强合集在这里

内外网文件传输工具有很多,传统的、专业的、免费的、付费的,等等,那么,具体到底有哪些内外网文件传输工具呢?各有什么特点呢?企业要入选选择呢? 本文中,就来揭晓答案,大合集就在这篇文章里了! 第一类:物理隔…

IC 测试革新

无论你是 IC 设计新手,还是资深 RTL Synthesis 工程师,深入掌握设计可测试性(DFT)关键技术,是提升芯片可靠性的必经之路。 1、为什么 DFT 在现代 IC 中变得不可或缺提升可控性与可观测性:通过在设计中嵌入测试结…

2025 年自动售卖机厂家最新推荐榜单:智能 / 无人 / 文创 / 盲盒 / 食品全品类优选,高性价比品牌选购指南

引言智能零售浪潮下,自动售卖机行业加速扩张,但市场乱象让运营商陷入选型困境:设备卡货、温控失效、后台卡顿等问题频发,部分品牌缺乏核心技术,智能化与售后服务严重脱节。随着消费需求升级,具备高清触控、多支付…

DevExpress WPF中文教程:Data Grid - 如何使用虚拟源?(二)

DevExpress WPF中文教程:Data Grid - 如何使用虚拟源?(二)DevExpress WPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程…

使用SecureCRT从linux上传下载文件方法

​​一、从 Linux 服务器打包并用 CRT 下载到 Windows 的完整流程​​ 1、准备工作​​ 在 Linux 服务器安装打包工具与 lrzsz(lrzsz 用于 ZModem 快速直传): RHEL/CentOS: sudo yum install -y ​​lrzsz​​ ​​…

2025年保洁公司权威推荐榜:苏州/昆山驻场保洁/钟点保洁/开荒保洁/外包保洁/商场保洁/办公楼保洁/工厂保洁/医院保洁/企业保洁全方位解析

行业背景与发展趋势随着城市化进程加速和现代服务业蓬勃发展,专业保洁服务已成为各类场所不可或缺的基础需求。从传统的驻场保洁、钟点保洁到专业度要求更高的开荒保洁、医院保洁,保洁行业正朝着专业化、标准化、智能…

用delegate 和event实现事件(有参和无参,有返回值和无返回值)

用delegate 和event实现事件(有参和无参,有返回值和无返回值)using System; using System.Windows.Forms; namespace 委托与事件 { public partial class Form1 : Form { //1、声明委托 public delegate void Conne…