多模态大语言模型arxiv论文略读（三十八）

请添加图片描述

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs

➡️ 论文标题：Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
➡️ 论文作者：Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea
➡️ 研究机构: University of Michigan、University of Cambridge、Westlake University
➡️ 问题背景：近年来，大型语言模型（LLMs）在各种自然语言处理（NLP）任务中表现出色。然而，这些模型在处理结构化数据，如表格数据时的表现，尚未得到充分探索。表格数据因其系统化的信息组织方式，在医疗诊断、虚拟个人助手、客户关系管理等多个应用中扮演着重要角色。因此，评估LLMs在处理表格数据时的表现，对于优化这些模型的应用具有重要意义。
➡️ 研究动机：尽管已有研究探讨了LLMs在不同任务中的表现，但它们在处理表格数据时的有效性仍是一个相对未被探索的领域。本研究旨在系统地评估LLMs在处理表格数据时的表现，特别是通过不同的提示策略和数据格式，来探究文本和图像表示对LLMs性能的影响。此外，研究还探讨了不同提示方法对LLMs处理表格相关任务的影响，以期为优化LLMs在表格数据处理中的应用提供有价值的见解。
➡️ 方法简介：研究团队通过构建一个包含多种表格表示方法的数据集，系统地评估了五种文本表示和三种图像表示对LLMs性能的影响。实验中使用了六种不同的LLMs，包括GPT-3.5、GPT-4、GeminiPro和Llama-2的不同版本。研究还比较了不同的提示策略，如普通提示、链式思考提示和专家提示，以评估这些策略对模型性能的影响。
➡️ 实验设计：实验在六个公开数据集上进行，涵盖了表格相关的任务，如问答、事实核查和表格到文本的生成。实验设计了不同的表格表示方法（如纯文本、带括号的文本、JSON格式等）和图像表示方法（如原始图像、列颜色高亮、行颜色高亮等），以及不同的提示策略，以全面评估模型在不同条件下的表现。研究发现，图像表示有时可以显著提高LLMs的性能，尤其是在涉及复杂推理的任务中。此外，不同的提示策略对模型性能的影响也很大，特别是专家提示在某些模型上表现尤为突出。

The Revolution of Multimodal Large Language Models: A Survey

➡️ 论文标题：The Revolution of Multimodal Large Language Models: A Survey
➡️ 论文作者：Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
➡️ 研究机构: University of Modena and Reggio Emilia, Italy; University of Pisa, Italy; IIT-CNR, Italy
➡️ 问题背景：随着大规模语言模型（LLMs）的成功，研究者们开始将这些模型扩展到多模态领域，开发出多模态大规模语言模型（MLLMs）。这些模型能够无缝集成视觉和文本模态，提供对话界面和指令跟随能力。本文综述了近期基于视觉的MLLMs，分析了它们的架构选择、多模态对齐策略和训练技术，并在多种任务上进行了详细分析，包括视觉定位、图像生成和编辑、视觉理解及特定领域的应用。
➡️ 研究动机：本文旨在提供一个全面的MLLMs综述，涵盖模型的架构、训练方法和任务性能，为未来的研究和发展奠定基础。与现有综述相比，本文特别关注视觉定位、图像生成和编辑等关键领域，并详细描述了每个MLLM的主要组件，如视觉编码器和特定的LLM。此外，本文还提供了模型性能和硬件需求的比较分析，填补了现有研究的空白。
➡️ 方法简介：研究团队通过分析MLLMs的视觉编码器、适配器模块和训练数据，探讨了这些模型如何实现视觉和文本模态的有效连接。视觉编码器通常基于预训练的Vision Transformer模型，而适配器模块则包括线性层、MLP、Q-Former和额外的交叉注意力层等。训练方法包括单阶段和两阶段训练，其中两阶段训练首先对视觉特征进行对齐，然后增强多模态对话能力。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括Conceptual Captions 3M (CC3M)、LAION和COYO-700M等，这些数据集提供了大规模的图像-文本对，用于模型的预训练和优化。实验评估了不同MLLMs在视觉定位、图像生成和编辑等任务上的性能，并比较了它们的计算需求和性能表现。

Model Composition for Multimodal Large Language Models

➡️ 论文标题：Model Composition for Multimodal Large Language Models
➡️ 论文作者：Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu
➡️ 研究机构: 清华大学计算机科学与技术系、清华大学人工智能产业研究院、阿里巴巴智能计算研究所、上海人工智能实验室、江苏语言能力协同创新中心
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理多种模态输入方面取得了快速进展。然而，现有的方法通常依赖于联合训练配对的多模态指令数据，这不仅资源密集，而且难以扩展到新的模态。此外，现有的多模态模型在处理多种模态输入时，性能往往受限于模态特定指令数据的缺乏。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的范式——多模态大语言模型的模型组合（Model Composition for MLLMs）。该方法通过组合现有的MLLMs，无需额外训练即可继承每个原始模型的模态理解能力，从而创建一个能够处理多种模态输入的多功能模型。研究旨在探索这种组合方法的可行性，并评估其在多模态任务中的性能。
➡️ 方法简介：研究团队提出了两种模型组合框架：NaiveMC和DAMC。NaiveMC通过直接重用模态特定编码器并合并大语言模型（LLM）参数，实现多模态模型的组合。DAMC进一步引入了参数解耦和自适应调整机制，以减少参数干扰并优化组合模型的性能。此外，研究团队还构建了MCUB基准，用于评估模型在处理多种模态输入时的综合理解能力。
➡️ 实验设计：研究在多个数据集上进行了实验，包括音频-视觉问答（MUSIC-AVQA、AVQA）、3D对象分类（ModelNet40、Objaverse）以及MCUB基准。实验设计了不同模态输入的组合（如视频+图像、视频+音频、视频+图像+音频等），以全面评估模型在不同任务中的表现。实验结果表明，DAMC在所有任务和模态组合中均表现出最佳性能，显著优于其他基线方法。

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

➡️ 论文标题：How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
➡️ 论文作者：Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
➡️ 研究机构: Apple
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理视觉和语言任务方面取得了显著进展，但这些模型在处理提示中的欺骗信息时仍存在显著的脆弱性，容易产生幻觉响应。当前的研究主要集中在减少幻觉，尤其是在生成长文本时，但对模型在面对提示中的欺骗信息时的鲁棒性研究较少。
➡️ 研究动机：为了填补这一研究空白，研究团队构建了一个新的基准测试MAD-Bench，旨在系统地评估MLLMs在处理提示中的欺骗信息时的性能。通过这一基准测试，研究团队希望揭示MLLMs在面对欺骗信息时的脆弱性，并探索提高模型鲁棒性的方法。
➡️ 方法简介：研究团队构建了MAD-Bench，该基准测试包含1000个图像-提示对，分为五个欺骗类别，如不存在的对象、对象数量、对象属性、场景理解和文本识别。研究团队使用GPT-4o作为评估工具，对19个不同的MLLMs进行了评估，包括15个开源模型和4个最先进的专有系统。
➡️ 实验设计：实验设计了不同类型的欺骗提示，包括对象数量的错误描述、不存在的对象、对象属性的错误描述、场景理解的错误描述和文本识别的错误描述。研究团队通过GPT-4o自动评估模型的响应，并通过人工检查验证了自动评估的准确性。实验结果表明，GPT-4V在所有模型中表现最佳，但在某些情况下仍会失败。此外，研究团队提出了一种简单的方法，通过在提示中添加额外的段落来鼓励模型在回答问题前进行更仔细的思考，这种方法在多个模型上显著提高了性能。

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

➡️ 论文标题：CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
➡️ 论文作者：Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu
➡️ 研究机构: Tsinghua University, Institute for AI Industry Research (AIR), Shanghai Artificial Intelligence Laboratory, Jiangsu Collaborative Innovation Center for Language Competence, Northwest Minzu University, Jilin University, Institute of Computing Technology, Chinese Academy of Sciences
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在结合视觉和语言的多种任务中展现了显著的成果。然而，现有的大多数基准测试未能考虑在某些情况下，图像需要在更广泛的上下文中进行解释。这导致了模型在上下文依赖的视觉理解能力上的评估不足。
➡️ 研究动机：为了评估MLLMs在上下文依赖的视觉理解能力上的表现，研究团队提出了一个新的基准测试——CODIS（COntext-Dependent Image diSambiguation）。CODIS旨在评估模型使用自由文本形式提供的上下文来增强视觉理解的能力，以弥补现有基准测试的不足。
➡️ 方法简介：CODIS利用视觉问答（VQA）格式，每个图像包含内在的模糊性，需要额外的上下文才能解决。每个图像-问题对都提供了两个自由文本形式的上下文，这些上下文虽然细微不同，但会导致对图像的不同解释和不同的答案。研究团队精心策划了所有图像、问题和上下文，以确保高质量和多样性。
➡️ 实验设计：研究团队评估了14个广泛使用的MLLMs在CODIS上的表现，使用了两个评估指标：成对准确率（Accp）和查询准确率（Accq）。Accp要求模型对一对查询的回答都正确才能得分，而Accq则对每个单独的正确回答进行评分。实验结果表明，MLLMs在上下文依赖的视觉理解能力上显著低于人类表现，特别是在识别关键上下文线索和提取相关视觉特征方面存在困难。