多模态大语言模型arxiv论文略读（七十四）

在这里插入图片描述

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

➡️ 论文标题：UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
➡️ 论文作者：Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li
➡️ 研究机构: Tsinghua University、Beijing Institute of Technology、Xiamen University
➡️ 问题背景：图像质量评估（IQA）和图像美学评估（IAA）旨在模拟人类对图像视觉质量和美学吸引力的主观感知。尽管现有方法通常独立处理这两个任务，但忽略了它们之间的内在联系，这阻碍了任务无关的共享表示的学习。为了克服这一挑战，研究团队提出了统一的视觉-语言预训练模型（UniQA），以学习对两个任务都有利的一般感知。
➡️ 研究动机：现有的IQA和IAA方法通常独立处理这两个任务，通过设计更深层次和更复杂的网络来提高模型性能。然而，这些方法往往忽视了任务之间的共同点：模拟人类对图像的主观感知。研究团队提出了一种新的方法，通过利用多模态大语言模型（MLLMs）生成高质量的文本描述，并利用这些生成的文本作为元数据来净化IAA数据集中的噪声，从而构建一个统一的质量和美学图像-文本数据集。此外，研究团队还提出了一种轻量级的适配器，以充分利用预训练模型的广泛知识，适应下游任务。
➡️ 方法简介：研究团队首先利用MLLMs生成与图像质量相关的文本描述，并利用这些生成的文本作为元数据来净化IAA数据集中的噪声。然后，研究团队构建了一个统一的图像-文本数据集，用于视觉-语言对比预训练，从而获得具有强大多模态图像评估感知的UniQA模型。最后，研究团队提出了一种轻量级的多线索集成适配器，以适应特定的IQA和IAA数据集，通过调整视觉特征并注入丰富的线索来微调下游任务。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括IQA数据集FLIVE和IAA数据集AVA，以及AVA-Captions数据集。实验评估了UniQA在典型IQA和IAA数据集上的性能，包括七个IQA数据集和两个IAA数据集。实验结果表明，UniQA在IQA和IAA任务上均达到了新的最先进水平，同时在零样本和少标签图像评估设置中也表现出色。

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

➡️ 论文标题：PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning
➡️ 论文作者：Yupeng Zheng, Zebin Xing, Qichao Zhang, Bu Jin, Pengfei Li, Yuhang Zheng, Zhongpu Xia, Kun Zhan, Xianpeng Lang, Yaran Chen, Dongbin Zhao
➡️ 研究机构: 中国科学院自动化研究所、中国科学院大学、北京邮电大学、北京航空航天大学、清华大学、理想汽车
➡️ 问题背景：自动驾驶车辆的运动规划是实现舒适、安全和高效驾驶的关键技术。当前基于规则的车辆运动规划方法在常见场景中表现良好，但在长尾场景中难以泛化。同时，基于学习的方法在大规模闭环场景中尚未超越基于规则的方法。为了解决这些问题，研究团队提出了PlanAgent，这是首个基于多模态大语言模型（MLLM）的中到中规划系统。
➡️ 研究动机：现有的基于规则和基于学习的方法在处理复杂和不确定的开放世界自动驾驶时仍面临一系列挑战。特别是，基于学习的方法在泛化到长尾场景时存在过拟合问题。为了克服这些挑战，研究团队提出了PlanAgent，旨在利用MLLM的常识推理和泛化能力，提高规划系统的可靠性和安全性。
➡️ 方法简介：PlanAgent通过三个核心模块利用MLLM的强大功能：1）环境转换模块，从环境中提取多模态关键信息，构建鸟瞰图（BEV）地图和基于车道图的文本描述；2）推理引擎模块，通过层次化链式思维（CoT）进行多轮迭代推理，指导MLLM生成规划代码；3）反思模块，通过模拟和评分验证生成的规划，减少MLLM的不确定性对规划安全的影响。
➡️ 实验设计：PlanAgent在大规模且具有挑战性的nuPlan基准上进行了评估。实验设计了详细的消融研究，以验证每个模块的有效性。实验结果表明，PlanAgent在常见场景（Val14基准）和更具挑战性的长尾场景（Test14-hard基准）中均表现出色，优于现有的最先进方法。

LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback

➡️ 论文标题：LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback
➡️ 论文作者：Wen Lai, Mohsen Mesgar, Alexander Fraser
➡️ 研究机构: TUM, LMU Munich, Munich Center for Machine Learning, Bosch Center for Artificial Intelligence
➡️ 问题背景：尽管大型语言模型（LLMs）在多语言任务中取得了显著进展，但大多数LLMs主要以英语文本进行训练，仅支持有限数量的非英语语言。此外，这些模型尚未与人类偏好对齐，这对于LLMs在英语任务中的成功至关重要。因此，扩展LLMs的多语言能力，特别是支持低资源语言，成为当前研究的重要方向。
➡️ 研究动机：现有的多语言LLMs虽然在某些能力上表现出色，但它们支持的语言数量有限，且在低资源语言上的性能差异显著。此外，这些模型在与人类偏好对齐方面存在不足。为了解决这些问题，研究团队开发了xLLaMA-100和xBLOOM-100（统称为xLLMs-100），旨在扩展LLMs的多语言能力至100种语言，并通过多语言指令调优和跨语言人类反馈对齐，提升模型的理解和生成能力。
➡️ 方法简介：研究团队构建了两个数据集：一个包含100种语言的多语言指令数据集，另一个包含30种语言的跨语言人类反馈数据集。通过这些数据集，研究团队对LLMs进行了多语言指令调优，并使用DPO算法进一步对齐模型与人类偏好。此外，研究团队还评估了翻译指令和生成响应的质量，确保模型在不同语言上的表现。
➡️ 实验设计：研究团队在五个多语言基准数据集上评估了xLLMs-100的性能，包括理解任务（PAWS-X）、推理任务（XCOPA）、生成任务（FLORES-101和XL-Sum）以及专家编写任务（Self-Instruct*）。实验涵盖了高资源和低资源语言，以全面评估模型的多语言理解和生成能力。实验结果表明，xLLMs-100在所有基准测试中均显著优于其他模型，特别是在低资源语言上的表现尤为突出。

Parrot: Multilingual Visual Instruction Tuning

➡️ 论文标题：Parrot: Multilingual Visual Instruction Tuning
➡️ 论文作者：Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
➡️ 研究机构: 南京大学、阿里巴巴集团
➡️ 问题背景：多模态大语言模型（MLLMs）如GPT-4V的发展标志着向通用人工智能迈出的重要一步。然而，现有的方法主要通过监督微调（SFT）将视觉编码器与大语言模型（LLMs）对齐，以赋予LLMs多模态能力。这一过程导致了MLLMs处理多种语言的能力逐渐下降，尤其是在非英语语言中的表现显著下降。这主要是由于SFT数据集主要由以英语为中心的图像-文本对组成，导致视觉编码器和LLMs在多语言标记上的对齐不足。
➡️ 研究动机：研究团队发现，由于多语言数据的不平衡，MLLMs在非英语语言中的表现显著下降。为了增强MLLMs的多语言能力，研究团队提出了一种新的方法——PARROT，该方法利用文本引导来驱动视觉标记在语言层面的对齐，从而将视觉标记转换为语言特定的嵌入。
➡️ 方法简介：PARROT通过计算初始视觉特征和文本嵌入之间的交叉注意力，将结果输入到Mixture-of-Experts (MoE) 路由器中，选择最相关的专家，将初始视觉标记转换为语言特定的视觉标记。具体来说，PARROT首先通过视觉编码器提取视觉特征，并通过投影器将其转换为语言嵌入标记Hv。然后，通过交叉注意力机制将Hv与文本嵌入Ht对齐，生成语言特定的视觉特征H’v。最后，通过MoE模块将Hv转换为语言特定的视觉嵌入Gv。
➡️ 实验设计：研究团队在两个多语言基准数据集（MMBench和MMMB）上进行了实验，评估了PARROT在不同语言任务中的表现。MMMB包括6种语言（英语、中文、葡萄牙语、阿拉伯语、土耳其语和俄语），15个类别，共12,000个问题。实验结果表明，PARROT在多语言任务中表现出色，特别是在土耳其语和阿拉伯语中，性能超过了LLaVA-NeXT。此外，PARROT在多个多模态基准数据集（如MME、ScienceQA-IMG和SEED-Bench-IMG）上也表现出竞争力。

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

➡️ 论文标题：Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
➡️ 论文作者：Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou
➡️ 研究机构: National University of Singapore (Show Lab)、Microsoft Gen AI、Central South University
➡️ 问题背景：当前的多模态模型在处理长文本上下文时面临显著的GPU内存和计算成本挑战。例如，处理MMC4和OBELICS数据集中的5M和10M数据项时，即使仅处理256个文本令牌，OpenFlamingo-9B仍需32个80GB的A100 GPU运行超过三天。这突显了开发更高效的计算方法以有效处理长上下文文本的必要性。
➡️ 研究动机：为了应对上述挑战，研究团队提出了一种创新方法——Visualized In-Context Text Processing (VisInContext)，该方法通过将长文本内容转换为图像，并利用视觉编码器提取文本表示，从而显著减少GPU内存使用和浮点运算（FLOPs），同时扩展模型的上下文文本长度。
➡️ 方法简介：VisInContext方法基于Flamingo架构，通过将部分上下文文本渲染成图像，然后使用视觉编码器处理这些图像，从而在不增加文本令牌长度的情况下扩展上下文文本长度。该方法包括文本渲染、Token Masking机制和Text-Centric Contrastive Learning (TCCL)等关键技术，以确保模型能够从渲染的文本图像中有效学习文本语义。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括Vision-Language Perception (VLP) 和 Image-to-Image (I2I) 任务。实验设计了不同的文本渲染参数（如字体大小、间隔阈值）和不同的任务设置（如文本仅上下文示例、文档理解任务、顺序多模态检索任务），以全面评估VisInContext方法的有效性和效率。实验结果表明，VisInContext不仅显著提高了模型在多模态下游任务中的性能，还大幅降低了计算成本，特别是在处理长文档时表现出色。