多模态大语言模型arxiv论文略读（三十二）

请添加图片描述

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

➡️ 论文标题：Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
➡️ 论文作者：Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
➡️ 研究机构: 南京大学、北京大学、Intel Lab China
➡️ 问题背景：多模态大语言模型（MLLMs）在视觉-语言任务中展现了卓越的能力，主要得益于大语言模型（LLMs）的上下文理解和多任务学习能力。然而，尽管现有的MLLMs能够识别图像中的物体，但在有效辨别物体的位置，尤其是场景深度方面，仍面临挑战。这限制了模型在多模态任务中的全面理解能力。
➡️ 研究动机：为了克服MLLMs在图像几何感知上的局限性，研究团队提出了Proximity QA框架，旨在通过问答指令格式增强MLLMs对图像中物体几何信息的理解能力。该框架通过两个阶段的训练，使模型能够估计物体的相对深度值，并推断物体之间的空间接近关系，从而实现对图像的综合理解。
➡️ 方法简介：Proximity QA框架包括两个阶段：感知阶段和推理阶段。在感知阶段，模型通过问答指令学习估计图像中物体的相对深度值；在推理阶段，模型利用第一阶段获得的深度信息，推断物体之间的空间接近关系。研究团队还构建了一个名为Proximity-110K的VQA数据集，包含深度信息和物体接近关系的指令，以支持模型的训练和评估。
➡️ 实验设计：研究团队在Proximity-110K数据集上进行了广泛的实验，验证了Proximity QA框架在深度感知和接近关系分析方面的优越性能。实验结果表明，Proximity QA框架在这些任务上显著优于其他最先进的MLLMs。此外，研究团队还分析了数据集中的问题和答案的分布情况，以及模型生成的对话的质量，以评估框架的有效性和准确性。

From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information

➡️ 论文标题：From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information
➡️ 论文作者：Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
➡️ 研究机构: Sun Yat-Sen University, Alibaba Group
➡️ 问题背景：多模态大语言模型（MLLMs）在融合文本和图像模态方面展现了强大的能力，但在准确识别图像中的细粒度元素方面仍存在挑战。视觉检测模型在识别图像中的细粒度细节方面表现出色，因此被广泛用于增强MLLMs的视觉理解能力。然而，大多数研究集中在无需训练的方法上，直接将检测信息以文本形式注入MLLMs，而对适应性训练方法的研究较少。
➡️ 研究动机：尽管无需训练的方法在注入文本检测信息方面表现良好，但适应性训练方法是否能进一步提升MLLMs的性能仍是一个未解的问题。研究团队通过系统地比较无需训练、重新训练和微调三种策略，旨在探讨适应性训练对MLLMs理解文本检测信息的影响。
➡️ 方法简介：研究团队提出了一种系统的方法，通过将视觉检测模型的输出转换为文本信息，并将其输入到MLLMs中，来评估不同训练策略的效果。具体来说，研究团队设计了三种训练策略：无需训练的注入（TFI）、基于重新训练的注入（RBI）和基于微调的注入（FTBI）。实验在多个基准数据集上进行，以评估不同策略对MLLMs性能的影响。
➡️ 实验设计：实验在10个广泛认可的基准数据集上进行，包括VQAv2、GQA、TextVQA、MMBench等。实验设计了不同的训练策略，评估了MLLMs在细粒度图像识别、文本识别、感知和推理等方面的能力。结果显示，基于微调的注入（FTBI）策略在所有基准数据集上都表现最佳，相比无需训练的注入（TFI）策略，FTBI-13B模型在10个基准数据集上的平均性能提升了6.71%。此外，微调策略还使MLLMs在更换检测模型后仍能保持性能提升。

Safety of Multimodal Large Language Models on Images and Texts

➡️ 论文标题：Safety of Multimodal Large Language Models on Images and Texts
➡️ 论文作者：Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
➡️ 研究机构: East China Normal University、Midea Group、Shanghai AI Laboratory
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在近年来取得了显著的发展，如GPT-4、LLaMA-2和Mixtral 8x7B等。这些模型不仅为人类生活提供了便利，同时也带来了巨大的安全风险。本文系统地调查了当前在MLLMs图像和文本上的评估、攻击和防御技术，旨在帮助研究者了解该领域的详细范围，并为未来的安全防护提供有价值的见解和方法。
➡️ 研究动机：尽管通过各种对齐技术（如Rafailov等人的研究）已经成功增强了大语言模型（LLMs）的安全性，但MLLMs的安全研究仍处于早期阶段。本文旨在通过系统地回顾MLLMs的安全评估、攻击和防御技术，揭示图像模态带来的新风险，评估MLLMs的安全水平，并探讨抵抗不安全查询的方法。
➡️ 方法简介：研究团队首先介绍了MLLMs的概述和安全性的理解，然后回顾了用于评估MLLMs安全性的数据集和度量标准。接着，全面展示了与MLLMs安全性相关的攻击和防御技术。最后，分析了几个未解决的问题，并讨论了有前景的研究方向。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括针对MLLMs的隐私保护能力（如PrivQA）、基于模因的多模态社会滥用（如GOAT-Bench）和图像描述任务中的毒性输出（如ToViLaG）。实验设计了不同的攻击场景，如对抗性攻击和视觉提示注入，以及不同的攻击目标，以全面评估MLLMs的安全性和抗干扰能力。

Can MLLMs Perform Text-to-Image In-Context Learning?

➡️ 论文标题：Can MLLMs Perform Text-to-Image In-Context Learning?
➡️ 论文作者：Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee
➡️ 研究机构: University of Wisconsin-Madison、FuriosaAI、Seoul National University、Ajou University
➡️ 问题背景：从大型语言模型（LLMs）到多模态大型语言模型（MLLMs）的演变，推动了将上下文学习（In-Context Learning, ICL）扩展到多模态领域的研究。现有的研究主要集中在图像到文本的ICL上，而文本到图像的ICL（T2I-ICL）因其独特的特性和潜在应用，尚未得到充分探索。
➡️ 研究动机：为了填补这一研究空白，研究团队正式定义了T2I-ICL任务，并提出了CoBSAT，这是首个T2I-ICL基准数据集，涵盖了十个任务。通过利用该数据集评估六个最先进的MLLMs在T2I-ICL上的表现，研究团队揭示了这些模型在解决T2I-ICL任务时遇到的主要挑战，并探讨了通过微调和链式思维提示（Chain-of-Thought prompting）等策略来缓解这些挑战的方法。
➡️ 方法简介：研究团队构建了CoBSAT数据集，该数据集包括十个任务，分为五个不同的主题：颜色、背景、风格、动作和纹理。每个任务都有预定义的文本输入和潜在变量列表，用于生成上下文提示。通过这些提示，研究团队评估了MLLMs在不同条件下的表现，包括对象推断任务和属性推断任务。
➡️ 实验设计：研究团队在CoBSAT数据集上进行了实验，评估了十个最先进的MLLMs在T2I-ICL任务上的表现。实验设计了不同数量的示例（2-shot、4-shot、6-shot、8-shot），以全面评估模型在不同条件下的表现。实验结果表明，SEED-LLaMA在多个任务中表现最佳，尤其是在Color-I任务中达到了68%的准确率。其他模型如Emu和GILL的表现则较差，准确率大多在10%以下。研究团队还发现，通过微调和链式思维提示，可以显著提升MLLMs在T2I-ICL任务上的表现。

Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models

➡️ 论文标题：Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models
➡️ 论文作者：Yunhong He, Jianling Qiu, Wei Zhang, Zhengqing Yuan
➡️ 研究机构: Anhui Polytechnic University (School of Mathematics-Physics and Finance, School of Artificial Intelligence)
➡️ 问题背景：大型语言模型（LLMs）如GPT-3.5和LLaMA-2在自然语言处理和人工智能领域取得了显著进展，但这些模型在应用中也面临诸多挑战，包括伦理困境、钓鱼攻击和隐私泄露等。
➡️ 研究动机：为了应对这些挑战，研究团队提出了一种多管齐下的方法，旨在通过过滤敏感词汇、检测角色扮演、实施自定义规则引擎等手段，增强LLMs的安全性和伦理标准，同时保持模型的高性能。
➡️ 方法简介：研究团队提出的方法包括：1) 过滤用户输入中的敏感词汇，防止不道德的响应；2) 检测角色扮演，阻止可能导致“越狱”情景的互动；3) 实施自定义规则引擎，限制生成禁止内容；4) 将这些方法扩展到多模态大型语言模型（MLLMs）。
➡️ 实验设计：实验在单个NVIDIA A100 GPU（80 GB VRAM）和AMD EPYC 7552 48核处理器上进行，内存分配为160 GB。软件环境使用PyTorch 2.0.0。实验设计了多种攻击场景，包括直接指令、指令重复、认知攻击、少样本攻击和语法变换等，以全面评估模型的防御能力。