多模态大语言模型arxiv论文略读（四十九）

请添加图片描述

When Do We Not Need Larger Vision Models?

➡️ 论文标题：When Do We Not Need Larger Vision Models?
➡️ 论文作者：Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell
➡️ 研究机构: UC Berkeley、Microsoft Research
➡️ 问题背景：近年来，通过增加模型规模来获得更强大的视觉表示已成为视觉模型预训练的默认策略。然而，这种趋势导致了对数十亿参数的巨型模型的追求。本文探讨了在视觉理解中，是否总是需要更大的模型来获得更好的性能。
➡️ 研究动机：研究团队提出了一种替代方法，即通过在多个图像尺度上运行预训练的较小模型（称为“Scaling on Scales, S2”），来替代传统的增加模型规模的方法。研究旨在展示S2在多种视觉任务中的性能，并探讨其相对于模型规模扩展的优势。
➡️ 方法简介：研究团队引入了S2-Wrapper，这是一种无需额外参数即可将任何预训练的视觉模型扩展到多个图像尺度的机制。S2-Wrapper通过将不同尺度的图像分割成与预训练时相同大小的子图像，然后分别处理这些子图像并合并特征，从而生成多尺度特征表示。
➡️ 实验设计：研究在三个公开数据集上进行了实验，包括图像分类、语义分割和深度估计任务。实验设计了不同尺度的图像（如1x、2x、3x）以及不同模型大小（如base、large、huge/giant）的组合，以全面评估S2和模型规模扩展的性能。此外，研究还探讨了S2在多模态语言模型（MLLMs）和机器人操作任务中的应用。结果表明，S2在许多情况下可以超越或匹配更大模型的性能，尤其是在需要详细理解的任务中。

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

➡️ 论文标题：HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
➡️ 论文作者：Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang
➡️ 研究机构: 浙江大学、上海科技大学、重庆大学、阿里巴巴集团、哈尔滨工业大学
➡️ 问题背景：多模态大语言模型（MLLMs）在处理下游多模态任务时表现出色，但现有的MLLMs通常采用静态调优策略，这可能限制了模型在不同任务中的表现。当前的MLLMs通过静态视觉-语言映射器将视觉特征转换为类似文本的标记，从而实现静态大语言模型（LLMs）理解视觉信息的能力。然而，这种静态调优策略可能在不同下游多模态任务中表现不佳。
➡️ 研究动机：为了克服静态调优策略的局限性，研究团队提出了HyperLLaVA，通过动态调优投影器和LLM参数，结合动态视觉专家和语言专家，以提高MLLMs在不同多模态任务中的灵活性和性能。研究旨在通过动态参数生成，增强MLLMs在处理多样化多模态任务时的适应性和表现。
➡️ 方法简介：HyperLLaVA框架包括两个主要部分：视觉专家（Visual Expert）和语言专家（Language Expert）。视觉专家通过HyperNetworks生成动态参数，根据视觉输入自适应地调整投影器的输出，从而更灵活地将视觉特征转换为视觉标记。语言专家则通过中间层输出作为语言引导，动态生成适应特定指令的特征，增强模型对用户请求的理解和响应能力。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括VQA-v2、GQA、VizWiz、SQAI、VQAT等视觉问答数据集，以及POPE、MME、MMBench、SEED-Bench等基准工具包。实验设计了不同的模型配置，如仅使用视觉专家、仅使用语言专家、同时使用视觉和语言专家等，以评估不同配置下的模型性能。实验结果表明，HyperLLaVA在多个基准测试中显著超越了现有的MLLMs，特别是在视觉问答和多模态理解任务中表现突出。

VL-Mamba: Exploring State Space Models for Multimodal Learning

➡️ 论文标题：VL-Mamba: Exploring State Space Models for Multimodal Learning
➡️ 论文作者：Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, Jing Liu
➡️ 研究机构: 澳大利亚机器学习研究所（The University of Adelaide）、中国科学院自动化研究所、中国科学院大学人工智能学院
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）近年来受到了广泛的关注，它们继承了大型语言模型（LLMs）强大的语言表达和逻辑推理能力，通过整合视觉和文本信息，不仅增强了对视觉内容的理解，还为语言理解和生成提供了更全面的上下文。然而，由于Transformer架构的自注意力机制固有的计算复杂度，导致了高昂的计算开销，尤其是在处理长序列时。
➡️ 研究动机：为了解决长序列建模的瓶颈问题，研究团队提出了VL-Mamba，这是首个利用状态空间模型（State Space Models, SSMs）解决多模态学习任务的工作。研究旨在探索SSMs在多模态学习中的应用潜力，提供一种不同于基于Transformer架构的多模态大型语言模型的新框架选项。
➡️ 方法简介：研究团队首先用预训练的Mamba语言模型替换了基于Transformer的骨干语言模型，如LLama或Vicuna。然后，研究团队探索了如何有效地将2D视觉选择性扫描机制应用于多模态学习，并引入了一种新的多模态连接器（MultiModal Connector, MMC）架构，包括视觉选择性扫描（Vision Selective Scan, VSS）模块和两个线性层，以增强2D因果建模的视觉序列。VSS模块探索了两种不同的扫描机制：双向扫描机制（Bidirectional-Scan Mechanism, BSM）和交叉扫描机制（Cross-Scan Mechanism, CSM）。
➡️ 实验设计：研究团队在8个不同的多模态学习基准上进行了广泛的实验，包括VQA-v2、GQA、ScienceQA-IMG、TextVQA、POPE、MME、MMBench和MM-Vet。实验结果表明，VL-Mamba在多个基准上取得了与现有多模态大型语言模型相当甚至更优的性能，尤其是在SQAI、VQAT和MME等任务上。尽管VL-Mamba的参数较少且训练数据有限，但其性能与一些参数更多的模型相当，展示了利用状态空间模型在多模态学习任务中的潜力。

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

➡️ 论文标题：RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition
➡️ 论文作者：Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
➡️ 研究机构: Wuhan University、Shanghai Jiao Tong University、The Chinese University of Hong Kong、Shanghai AI Laboratory、MThreads, Inc.、Nanyang Technological University
➡️ 问题背景：当前的视觉-语言模型（Vision-Language Models, VLMs）如CLIP在广泛的视觉-语言理解任务中表现出色，但其在处理大规模词汇或细粒度类别数据集时存在局限性。另一方面，多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理细粒度类别时表现出色，但在处理大规模词汇时面临挑战。这些模型在处理大规模词汇和细粒度类别时的局限性限制了它们在实际应用中的性能。
➡️ 研究动机：为了克服CLIP和MLLMs在处理大规模词汇和细粒度类别时的局限性，研究团队提出了一种新的方法——RAR（Retrieving And Ranking Augmented），旨在增强MLLMs在少样本/零样本识别任务中的性能。RAR通过构建多模态检索器，将外部知识动态地融入到模型的处理和生成流程中，从而提高模型的识别精度。
➡️ 方法简介：RAR方法首先构建一个多模态检索器，该检索器创建并存储视觉图像和文本描述的多模态嵌入。在推理阶段，RAR从外部记忆中检索与输入图像最相似的前k个类别名称，然后使用MLLMs对这些检索到的候选结果进行排序，最终输出预测结果。为了进一步提高MLLMs的排序性能，研究团队探索了使用排名格式数据进行微调或上下文学习的方法。
➡️ 实验设计：研究团队在三个领域进行了实验，包括：1）细粒度视觉识别（5个基准数据集），2）少样本图像识别（11个数据集），3）零样本对象识别（2个对象检测数据集，如V3Det）。实验结果表明，RAR方法在少样本学习任务中显著提高了平均6.2%的性能，在零样本对象识别任务中分别提高了6.4%和1.5%的性能。

Empowering Segmentation Ability to Multi-modal Large Language Models

➡️ 论文标题：Empowering Segmentation Ability to Multi-modal Large Language Models
➡️ 论文作者：Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd.
➡️ 问题背景：多模态大型语言模型（MLLMs）能够理解图像-语言提示，并展现出令人印象深刻的推理能力。然而，现有的研究发现，当扩展MLLMs以具备分割能力时，模型的对话能力会显著下降。这限制了MLLMs在实际应用中的多功能性。
➡️ 研究动机：为了克服这一挑战，研究团队提出了一种新的框架，旨在赋予MLLMs分割能力的同时，保持其原有的对话和推理能力。通过引入链式思维提示策略，研究团队希望利用MLLMs的丰富知识，更精确地定位目标区域，从而提高分割模型的性能。
➡️ 方法简介：研究团队提出了LLaVASeg框架，该框架利用链式思维提示策略，指导MLLMs生成目标区域的抽象名称和详细的图像特定视觉属性。这些视觉属性包括形状、颜色和相对位置，用于提示下游分割模型。此外，研究团队还提出了多尺度适配器，以融合提取的属性与视觉特征。
➡️ 实验设计：实验在多个数据集上进行，包括语义分割数据集（如ADE20k、COCO-Stuff）、指代分割数据集（如RefCOCO、RefCOCO+、RefCOCOg）和推理分割数据集（如ReasonSeg）。实验设计了不同的提示模板，以模拟链式思维提示的第一步。实验结果表明，LLaVASeg在保持对话能力的同时，具备强大的分割能力。