多模态大语言模型arxiv论文略读(四十九)

请添加图片描述

When Do We Not Need Larger Vision Models?

➡️ 论文标题:When Do We Not Need Larger Vision Models?
➡️ 论文作者:Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
➡️ 研究机构: UC Berkeley、Microsoft Research
➡️ 问题背景:近年来,通过增加模型规模来获得更强大的视觉表示已成为视觉模型预训练的默认策略。然而,这种趋势导致了对数十亿参数的巨型模型的追求。本文探讨了在视觉理解中,是否总是需要更大的模型来获得更好的性能。
➡️ 研究动机:研究团队提出了一种替代方法,即通过在多个图像尺度上运行预训练的较小模型(称为“Scaling on Scales, S2”),来替代传统的增加模型规模的方法。研究旨在展示S2在多种视觉任务中的性能,并探讨其相对于模型规模扩展的优势。
➡️ 方法简介:研究团队引入了S2-Wrapper,这是一种无需额外参数即可将任何预训练的视觉模型扩展到多个图像尺度的机制。S2-Wrapper通过将不同尺度的图像分割成与预训练时相同大小的子图像,然后分别处理这些子图像并合并特征,从而生成多尺度特征表示。
➡️ 实验设计:研究在三个公开数据集上进行了实验,包括图像分类、语义分割和深度估计任务。实验设计了不同尺度的图像(如1x、2x、3x)以及不同模型大小(如base、large、huge/giant)的组合,以全面评估S2和模型规模扩展的性能。此外,研究还探讨了S2在多模态语言模型(MLLMs)和机器人操作任务中的应用。结果表明,S2在许多情况下可以超越或匹配更大模型的性能,尤其是在需要详细理解的任务中。

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

➡️ 论文标题:HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
➡️ 论文作者:Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang
➡️ 研究机构: 浙江大学、上海科技大学、重庆大学、阿里巴巴集团、哈尔滨工业大学
➡️ 问题背景:多模态大语言模型(MLLMs)在处理下游多模态任务时表现出色,但现有的MLLMs通常采用静态调优策略,这可能限制了模型在不同任务中的表现。当前的MLLMs通过静态视觉-语言映射器将视觉特征转换为类似文本的标记,从而实现静态大语言模型(LLMs)理解视觉信息的能力。然而,这种静态调优策略可能在不同下游多模态任务中表现不佳。
➡️ 研究动机:为了克服静态调优策略的局限性,研究团队提出了HyperLLaVA,通过动态调优投影器和LLM参数,结合动态视觉专家和语言专家,以提高MLLMs在不同多模态任务中的灵活性和性能。研究旨在通过动态参数生成,增强MLLMs在处理多样化多模态任务时的适应性和表现。
➡️ 方法简介:HyperLLaVA框架包括两个主要部分:视觉专家(Visual Expert)和语言专家(Language Expert)。视觉专家通过HyperNetworks生成动态参数,根据视觉输入自适应地调整投影器的输出,从而更灵活地将视觉特征转换为视觉标记。语言专家则通过中间层输出作为语言引导,动态生成适应特定指令的特征,增强模型对用户请求的理解和响应能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括VQA-v2、GQA、VizWiz、SQAI、VQAT等视觉问答数据集,以及POPE、MME、MMBench、SEED-Bench等基准工具包。实验设计了不同的模型配置,如仅使用视觉专家、仅使用语言专家、同时使用视觉和语言专家等,以评估不同配置下的模型性能。实验结果表明,HyperLLaVA在多个基准测试中显著超越了现有的MLLMs,特别是在视觉问答和多模态理解任务中表现突出。

VL-Mamba: Exploring State Space Models for Multimodal Learning

➡️ 论文标题:VL-Mamba: Exploring State Space Models for Multimodal Learning
➡️ 论文作者:Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, Jing Liu
➡️ 研究机构: 澳大利亚机器学习研究所(The University of Adelaide)、中国科学院自动化研究所、中国科学院大学人工智能学院
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)近年来受到了广泛的关注,它们继承了大型语言模型(LLMs)强大的语言表达和逻辑推理能力,通过整合视觉和文本信息,不仅增强了对视觉内容的理解,还为语言理解和生成提供了更全面的上下文。然而,由于Transformer架构的自注意力机制固有的计算复杂度,导致了高昂的计算开销,尤其是在处理长序列时。
➡️ 研究动机:为了解决长序列建模的瓶颈问题,研究团队提出了VL-Mamba,这是首个利用状态空间模型(State Space Models, SSMs)解决多模态学习任务的工作。研究旨在探索SSMs在多模态学习中的应用潜力,提供一种不同于基于Transformer架构的多模态大型语言模型的新框架选项。
➡️ 方法简介:研究团队首先用预训练的Mamba语言模型替换了基于Transformer的骨干语言模型,如LLama或Vicuna。然后,研究团队探索了如何有效地将2D视觉选择性扫描机制应用于多模态学习,并引入了一种新的多模态连接器(MultiModal Connector, MMC)架构,包括视觉选择性扫描(Vision Selective Scan, VSS)模块和两个线性层,以增强2D因果建模的视觉序列。VSS模块探索了两种不同的扫描机制:双向扫描机制(Bidirectional-Scan Mechanism, BSM)和交叉扫描机制(Cross-Scan Mechanism, CSM)。
➡️ 实验设计:研究团队在8个不同的多模态学习基准上进行了广泛的实验,包括VQA-v2、GQA、ScienceQA-IMG、TextVQA、POPE、MME、MMBench和MM-Vet。实验结果表明,VL-Mamba在多个基准上取得了与现有多模态大型语言模型相当甚至更优的性能,尤其是在SQAI、VQAT和MME等任务上。尽管VL-Mamba的参数较少且训练数据有限,但其性能与一些参数更多的模型相当,展示了利用状态空间模型在多模态学习任务中的潜力。

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

➡️ 论文标题:RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
➡️ 论文作者:Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
➡️ 研究机构: Wuhan University、Shanghai Jiao Tong University、The Chinese University of Hong Kong、Shanghai AI Laboratory、MThreads, Inc.、Nanyang Technological University
➡️ 问题背景:当前的视觉-语言模型(Vision-Language Models, VLMs)如CLIP在广泛的视觉-语言理解任务中表现出色,但其在处理大规模词汇或细粒度类别数据集时存在局限性。另一方面,多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理细粒度类别时表现出色,但在处理大规模词汇时面临挑战。这些模型在处理大规模词汇和细粒度类别时的局限性限制了它们在实际应用中的性能。
➡️ 研究动机:为了克服CLIP和MLLMs在处理大规模词汇和细粒度类别时的局限性,研究团队提出了一种新的方法——RAR(Retrieving And Ranking Augmented),旨在增强MLLMs在少样本/零样本识别任务中的性能。RAR通过构建多模态检索器,将外部知识动态地融入到模型的处理和生成流程中,从而提高模型的识别精度。
➡️ 方法简介:RAR方法首先构建一个多模态检索器,该检索器创建并存储视觉图像和文本描述的多模态嵌入。在推理阶段,RAR从外部记忆中检索与输入图像最相似的前k个类别名称,然后使用MLLMs对这些检索到的候选结果进行排序,最终输出预测结果。为了进一步提高MLLMs的排序性能,研究团队探索了使用排名格式数据进行微调或上下文学习的方法。
➡️ 实验设计:研究团队在三个领域进行了实验,包括:1)细粒度视觉识别(5个基准数据集),2)少样本图像识别(11个数据集),3)零样本对象识别(2个对象检测数据集,如V3Det)。实验结果表明,RAR方法在少样本学习任务中显著提高了平均6.2%的性能,在零样本对象识别任务中分别提高了6.4%和1.5%的性能。

Empowering Segmentation Ability to Multi-modal Large Language Models

➡️ 论文标题:Empowering Segmentation Ability to Multi-modal Large Language Models
➡️ 论文作者:Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd.
➡️ 问题背景:多模态大型语言模型(MLLMs)能够理解图像-语言提示,并展现出令人印象深刻的推理能力。然而,现有的研究发现,当扩展MLLMs以具备分割能力时,模型的对话能力会显著下降。这限制了MLLMs在实际应用中的多功能性。
➡️ 研究动机:为了克服这一挑战,研究团队提出了一种新的框架,旨在赋予MLLMs分割能力的同时,保持其原有的对话和推理能力。通过引入链式思维提示策略,研究团队希望利用MLLMs的丰富知识,更精确地定位目标区域,从而提高分割模型的性能。
➡️ 方法简介:研究团队提出了LLaVASeg框架,该框架利用链式思维提示策略,指导MLLMs生成目标区域的抽象名称和详细的图像特定视觉属性。这些视觉属性包括形状、颜色和相对位置,用于提示下游分割模型。此外,研究团队还提出了多尺度适配器,以融合提取的属性与视觉特征。
➡️ 实验设计:实验在多个数据集上进行,包括语义分割数据集(如ADE20k、COCO-Stuff)、指代分割数据集(如RefCOCO、RefCOCO+、RefCOCOg)和推理分割数据集(如ReasonSeg)。实验设计了不同的提示模板,以模拟链式思维提示的第一步。实验结果表明,LLaVASeg在保持对话能力的同时,具备强大的分割能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/81011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习与大模型基础】第14章-分类任务与经典分类算法

Part 1:什么是分类任务? 1.1 分类就是“贴标签” 想象你有一堆水果,有苹果🍎、橘子🍊、香蕉🍌,你的任务是让机器学会自动判断一个新水果属于哪一类——这就是分类(Classification&…

LeetCode 2906 统计最大元素出现至少K次的子数组(滑动窗口)

给出一个示例: 输入:nums [1,3,2,3,3], k 2 输出:6 解释:包含元素 3 至少 2 次的子数组为:[1,3,2,3]、[1,3,2,3,3]、[3,2,3]、[3,2,3,3]、[2,3,3] 和 [3,3] 。该题也是一个比较简单的滑动窗口的题目,但是…

使用 Spring Boot 进行开发

✨ 使用 Spring Boot 进行开发 ✨ 📌 本节将深入介绍如何高效使用 Spring Boot,涵盖以下核心主题: 1️⃣ 🔧 构建系统 深入了解 Spring Boot 的项目结构和依赖管理 2️⃣ ⚙️ 自动配置 探索 Spring Boot 的自动化配置机制和原…

Qt的WindowFlags窗口怎么选?

Qt.Dialog: 指示窗口是一个对话框,这通常会改变窗口的默认按钮布局,并可能影响窗口框架的样式。Qt.Popup: 指示窗口是一个弹出式窗口(例如菜单或提示),它通常是临时的且没有任务栏按钮。Qt.Tool: 标识窗口作为一个工具…

Redis高可用架构全解析:主从复制、哨兵模式与集群实战指南

Redis高可用架构全解析:主从复制、哨兵模式与集群实战指南 引言 在分布式系统架构中,Redis作为高性能内存数据库的标杆,其高可用与扩展性设计始终是开发者关注的焦点。本文将深入剖析Redis的三大核心机制——主从复制、哨兵模式与集群架构&…

音视频之H.265/HEVC网络适配层

H.265/HEVC系列文章: 1、音视频之H.265/HEVC编码框架及编码视频格式 2、音视频之H.265码流分析及解析 3、音视频之H.265/HEVC预测编码 4、音视频之H.265/HEVC变换编码 5、音视频之H.265/HEVC量化 6、音视频之H.265/HEVC环路后处理 7、音视频之H.265/HEVC熵编…

element-plus(vue3)表单el-select下拉框的远程分页下拉触底关键字搜索实现

一、基础内核-自定义指令 1.背景 2.定义 3.使用 4.注意 当编辑时需要回显,此时由于分页导致可能匹配不到对应label文本显示,此时可以这样解决 二、升级使用-二次封装组件 三、核心代码 1.自定义指令 定义 ----------------selectLoadMoreDirective.…

大内存生产环境tomcat-jvm配置实践

话不多讲,奉上代码,分享经验,交流提高! 64G物理内存,8核CPU生产环境tomcat-jvm配置如下: JAVA_OPTS-server -XX:MaxMetaspaceSize4G -XX:ReservedCodeCacheSize2G -XX:UseG1GC -Xms48G -Xmx48G -XX:MaxGCPauseMilli…

C++函数模板基础

1 函数模板 1.1 基础介绍 函数模板是一种特殊的函数定义,它允许你创建通用的函数,这些函数可以处理多种不同的数据类型,而不需要为每种数据类型都编写一个单独的函数。 在 C++ 里,函数模板的格式包含模板声明与函数定义两部分,其基本格式如下: template <typename…

mangodb的数据库与集合命令,文档命令

MongoDB的下载安装与启动&#xff0c; 一、MongoDB下载安装 1. 官网下载 打开官网&#xff1a;https://www.mongodb.com/try/download/community选择&#xff1a; 版本&#xff08;Version&#xff09;&#xff1a;选最新版或者根据需要选旧版。平台&#xff08;OS&#xff0…

flink端到端数据一致性

这里有一个注意点&#xff0c;就是flink端的精准一次 1.barrier对齐精准和一次非对齐精准一次 对比​​ ​​维度​​​​Barrier 对齐的精准一次​​​​Barrier 非对齐的精准一次​​​​触发条件​​需等待所有输入流的 Barrier 对齐后才能触发检查点 收到第一个 Barrier …

4月29号

级别越大,字体越小. CSS样式控制: 例如把日期设为灰色字体

PHP代码-服务器下载文件页面编写

内部环境的服务资源下载页面有访问需求&#xff0c;给开发和产品人员编写一个简洁的下载页面提供资源下载。直接用nginxphp的形式去编写了&#xff0c;这里提供展示index.php文件代码如下&#xff1a; <?php // 配置常量 define(BASE_DIR, __DIR__); // 当前脚本所在目录作…

MySQL基础关键_001_认识

目 录 一、概述 1.数据库&#xff08;DB&#xff09;分类 &#xff08;1&#xff09;关系型数据库 &#xff08;2&#xff09;非关系型数据库 2.数据库管理系统&#xff08;DBMS&#xff09; 3.SQL &#xff08;1&#xff09;说明 &#xff08;2&#xff09;分类 二、…

Shell、Bash 执行方式及./ 执行对比详解

Shell、Bash 执行方式及./ 执行对比详解 在 Linux 和 UNIX 系统的使用过程中&#xff0c;Shell 脚本是实现自动化任务、系统管理的重要工具。而在执行 Shell 脚本时&#xff0c;我们常常会用到bash命令以及./的执行方式&#xff0c;这两种执行方式看似相似&#xff0c;实则存在…

P1494 [国家集训队] 小 Z 的袜子 Solution

Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1​,a2​,⋯,an​)&#xff0c;有 q q q 次查询&#xff0c;每次查询给定 ( l , r ) (l,r) (l,r). 你需要求出 2 ∑ i ≤ i < j ≤ r [ a i a j ] ( r − l ) ( r − l 1 ) \dfrac{2\sum…

解决vue3 路由query传参刷新后数据丢失的问题

前言&#xff1a;在页面刷新的时候&#xff0c;路由query数据会被清空&#xff0c;网上很多方法说query传参可以实现&#xff0c;反正我是没有实现 思路&#xff1a;将数据保存到本地&#xff0c;通过 “ &#xff1f;” 进行判断是否有数据&#xff0c;页面销毁的时候删除本地…

IIC小记

SCL 时钟同步线&#xff0c;由主机发出。 当SCL为高电平&#xff08;逻辑1&#xff09;时是工作状态&#xff0c;低电平&#xff08;逻辑0&#xff09;时是休息状态。SCL可以控制通信的速度。 SDA 数据收发线 应答位&#xff1a;前八个工作区间是一个字节&#xff0c;在SCL…

Linux[开发工具]

vim(多模式编辑器) vim是一个多模式的编译器!!命令模式是核心 vim 文件名 (数字)(进入编辑,光标处在第几行) esc切换模式 shift; >:(:wq保存并退出) 命令模式: 键盘的输入,默认被当做命令来看待 gg:光标快速定位到最开始 shiftgG:股那个表快速定位到最结尾 nshiftgG:光标…

hutools工具类中isNotEmpty与isNotBlank区分

基于以下两种情况。在判断的变量是String类型时&#xff0c; 判断是否为空&#xff0c;推荐使用isNotBlank(). 1. isNotEmpty 不会验证str中是否含有空字符串&#xff0c;而 isNotBlank方法会验证 public static boolean isNotEmpty(CharSequence str) {return false isEmpty…