多模态大语言模型arxiv论文略读（七十九）

在这里插入图片描述

AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning

➡️ 论文标题：AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
➡️ 论文作者：Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
➡️ 研究机构: 香港科技大学（广州）、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景：上下文学习（In-context Learning, ICL）在大规模语言模型（LLMs）中展现了显著的能力，无需更新数十亿参数即可在未见过的数据上获得理想性能。然而，在多模态大规模语言模型（MLLMs）中，ICL的应用面临两个主要问题：(1) 大多数主要的MLLMs仅在单图像数据集上训练，无法处理额外的多模态演示；(2) 随着演示数量的增加，数千个视觉标记对硬件资源造成巨大挑战，并降低ICL性能。
➡️ 研究动机：研究团队发现，MLLMs在生成过程中更关注语言模态，而非视觉模态。基于这一发现，研究团队提出了一种新的框架AIM，通过将多模态演示中的图像信息聚合到文本的潜在空间中，减少视觉标记的数量，从而提高MLLMs在多模态ICL中的效率和性能。
➡️ 方法简介：AIM框架通过将多模态演示中的图像信息聚合到文本的潜在空间中，生成融合的虚拟标记，以替代原始的图像-文本对。这些融合的虚拟标记与文本长度相同，从而显著减少了演示的长度。AIM可以在不改变查询图像和文本的情况下，将多图像提示近似转换为包含单个查询图像的提示，从而提高模型的性能。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括图像描述（Image Caption）、视觉问答（VQA）和仇恨言论检测（Hateful Speech Detection）。实验设计了不同因素（如图像数量、图像分辨率和文本长度）的变化，以及不同类型的评估任务（如开放性问题和封闭性问题），以全面评估AIM在多模态ICL中的表现。实验结果表明，AIM在减少内存使用和提高推理吞吐量方面表现出色，同时在多个任务上取得了与基础模型相当或更好的性能。

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

➡️ 论文标题：MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
➡️ 论文作者：Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
➡️ 研究机构: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景：随着大规模语言模型（LLMs）的快速发展，多模态大规模语言模型（MLLMs）在多种任务中展现了卓越的能力。然而，MLLMs在实际应用中面临复杂的场景，容易受到潜在的恶意指令的影响，从而带来安全风险。现有的评估基准虽然包含了一定的安全考虑，但往往缺乏全面性和严谨性，例如使用GPT-4V同时作为评估者和被评估模型，存在自我偏见的问题。
➡️ 研究动机：为了应对MLLMs在安全评估方面的不足，研究团队开发了MLLMGUARD，一个多维度的安全评估套件，旨在为MLLMs提供全面的安全评估。MLLMGUARD不仅涵盖了隐私、偏见、毒性、真实性和合法性五个重要安全维度，还通过引入对抗性样本和高质量的人工标注，提高了评估的挑战性和准确性。
➡️ 方法简介：MLLMGUARD包括一个双语（英语和中文）图像-文本评估数据集、推理工具和一个轻量级评估器。数据集主要来源于社交媒体，通过红队技术（Red Teaming Techniques）和人工标注，确保数据的多样性和挑战性。轻量级评估器GUARDRANK通过预训练语言模型（如LLaMA-2和Roberta-large）进行微调，实现了对MLLMs的自动化评估，显著提高了评估的准确性和效率。
➡️ 实验设计：研究团队在13个先进的MLLMs上进行了评估，包括2个闭源模型和11个开源模型。评估涵盖了隐私、偏见、毒性、真实性和合法性五个维度，每个维度下设多个子任务。实验结果表明，尽管GPT-4V在多个维度上表现最佳，但MiniGPT-v2在某些方面（如真实性和合法性）的表现更为出色。此外，GUARDRANK在评估准确性上显著优于GPT-4，证明了其在多模态模型安全评估中的有效性和可靠性。

Grounding Multimodal Large Language Models in Actions

➡️ 论文标题：Grounding Multimodal Large Language Models in Actions
➡️ 论文作者：Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
➡️ 研究机构: Apple, Georgia Tech, Mila
➡️ 问题背景：多模态大语言模型（MLLMs）在多个领域展示了广泛的能力，尤其是在具身AI中。然而，这些模型在具身任务中的能力受限于其输出空间（自然语言）与具身代理的动作空间之间的差距，特别是在连续动作空间中，低级控制器可能需要高度的精度。
➡️ 研究动机：为了克服MLLMs在具身任务中的局限性，研究团队通过系统的方法研究了如何将MLLMs有效地与不同的具身体现及其动作空间结合，旨在提高模型在具身任务中的性能。
➡️ 方法简介：研究团队提出了一种统一的架构，通过动作空间适配器（Action Space Adapters, ASAs）来重新参数化MLLMs的输出，使其能够生成动作。研究包括了连续动作空间和离散动作空间的ASAs，通过学习的分词策略和语义对齐策略来优化模型的性能。
➡️ 实验设计：研究在五个不同的具身AI环境中进行了实验，包括三个机器人连续控制环境和两个离散动作环境，涵盖了114个具身任务。实验评估了不同ASAs在任务成功率、RL样本效率等方面的表现，结果表明，对于连续动作空间，学习的分词策略（Residual VQ）表现最佳；对于离散动作空间，语义对齐策略（Semantic Tokenization）表现最佳。

Multimodal Table Understanding

➡️ 论文标题：Multimodal Table Understanding
➡️ 论文作者：Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院、百度公司、北京师范大学人工智能学院
➡️ 问题背景：尽管基于大型语言模型（LLMs）的表格理解方法取得了显著进展，但这些方法通常依赖于将表格转换为特定的文本序列（如Markdown或HTML）作为模型输入。然而，在某些现实场景中，获取高质量的文本表格表示形式非常困难，而表格图像则更为常见。因此，如何直接利用直观的视觉信息来理解表格，成为开发更实用应用的关键和紧迫挑战。
➡️ 研究动机：现有的表格理解方法，包括基于LLMs的方法，大多只能处理有限的任务，且需要将表格转换为文本序列。这限制了表格理解技术在实际场景中的应用。为了克服这一限制，研究团队提出了多模态表格理解问题，旨在使模型能够基于表格图像直接生成正确的响应，以应对各种表格相关请求。
➡️ 方法简介：研究团队构建了一个大规模的数据集MMTab，涵盖了广泛的表格图像、指令和任务。基于此数据集，研究团队开发了一个通用的多模态大型语言模型（MLLM）Table-LLaVA，该模型在23个基准测试中显著优于最近的开源MLLM基线模型。
➡️ 实验设计：实验在三个公开数据集上进行，包括多模态表格理解任务。实验设计了不同因素（如表格结构、样式和领域）的变化，以及不同类型的任务（如表格问答、表格事实验证和表格到文本生成），以全面评估模型的多模态表格理解能力。

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

➡️ 论文标题：VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
➡️ 论文作者：Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在各种视觉-语言任务中表现出色，但其输出主要局限于文本形式，限制了其在结构化或视觉信息表示上的能力。此外，现有的扩展MLLM输出格式的方法未能完全满足实际需求，如密集对象检测、姿态估计和图像生成等任务。
➡️ 研究动机：为了克服现有MLLMs的局限性，研究团队开发了VisionLLM v2，这是一个端到端的通用多模态大模型，旨在统一视觉感知、理解和生成任务。该模型不仅扩展了MLLMs的应用范围，还通过引入“超级链接”技术，实现了任务信息和梯度反馈在多任务解码器之间的高效传输，避免了任务冲突。
➡️ 方法简介：VisionLLM v2通过引入“超级链接”技术，将MLLM与特定任务解码器连接起来。该技术包括路由令牌（Routing Token）和超级链接查询（Super-Link Queries）两部分。路由令牌用于触发特定解码器的选择，而超级链接查询则作为MLLM与任务解码器之间的桥梁，确保任务信息的准确传输和梯度反馈。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，涵盖了从视觉感知到视觉理解的各种任务，包括弱交互（如封闭集任务）和强交互（如视觉提示+语言提示）任务，以及常见领域和长尾领域（如医疗、遥感、工业）的任务。实验结果表明，VisionLLM v2在各种标准基准测试中达到了与任务专用模型相当的性能。