多模态大语言模型arxiv论文略读(七十四)

在这里插入图片描述

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

➡️ 论文标题:UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
➡️ 论文作者:Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li
➡️ 研究机构: Tsinghua University、Beijing Institute of Technology、Xiamen University
➡️ 问题背景:图像质量评估(IQA)和图像美学评估(IAA)旨在模拟人类对图像视觉质量和美学吸引力的主观感知。尽管现有方法通常独立处理这两个任务,但忽略了它们之间的内在联系,这阻碍了任务无关的共享表示的学习。为了克服这一挑战,研究团队提出了统一的视觉-语言预训练模型(UniQA),以学习对两个任务都有利的一般感知。
➡️ 研究动机:现有的IQA和IAA方法通常独立处理这两个任务,通过设计更深层次和更复杂的网络来提高模型性能。然而,这些方法往往忽视了任务之间的共同点:模拟人类对图像的主观感知。研究团队提出了一种新的方法,通过利用多模态大语言模型(MLLMs)生成高质量的文本描述,并利用这些生成的文本作为元数据来净化IAA数据集中的噪声,从而构建一个统一的质量和美学图像-文本数据集。此外,研究团队还提出了一种轻量级的适配器,以充分利用预训练模型的广泛知识,适应下游任务。
➡️ 方法简介:研究团队首先利用MLLMs生成与图像质量相关的文本描述,并利用这些生成的文本作为元数据来净化IAA数据集中的噪声。然后,研究团队构建了一个统一的图像-文本数据集,用于视觉-语言对比预训练,从而获得具有强大多模态图像评估感知的UniQA模型。最后,研究团队提出了一种轻量级的多线索集成适配器,以适应特定的IQA和IAA数据集,通过调整视觉特征并注入丰富的线索来微调下游任务。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括IQA数据集FLIVE和IAA数据集AVA,以及AVA-Captions数据集。实验评估了UniQA在典型IQA和IAA数据集上的性能,包括七个IQA数据集和两个IAA数据集。实验结果表明,UniQA在IQA和IAA任务上均达到了新的最先进水平,同时在零样本和少标签图像评估设置中也表现出色。

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

➡️ 论文标题:PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning
➡️ 论文作者:Yupeng Zheng, Zebin Xing, Qichao Zhang, Bu Jin, Pengfei Li, Yuhang Zheng, Zhongpu Xia, Kun Zhan, Xianpeng Lang, Yaran Chen, Dongbin Zhao
➡️ 研究机构: 中国科学院自动化研究所、中国科学院大学、北京邮电大学、北京航空航天大学、清华大学、理想汽车
➡️ 问题背景:自动驾驶车辆的运动规划是实现舒适、安全和高效驾驶的关键技术。当前基于规则的车辆运动规划方法在常见场景中表现良好,但在长尾场景中难以泛化。同时,基于学习的方法在大规模闭环场景中尚未超越基于规则的方法。为了解决这些问题,研究团队提出了PlanAgent,这是首个基于多模态大语言模型(MLLM)的中到中规划系统。
➡️ 研究动机:现有的基于规则和基于学习的方法在处理复杂和不确定的开放世界自动驾驶时仍面临一系列挑战。特别是,基于学习的方法在泛化到长尾场景时存在过拟合问题。为了克服这些挑战,研究团队提出了PlanAgent,旨在利用MLLM的常识推理和泛化能力,提高规划系统的可靠性和安全性。
➡️ 方法简介:PlanAgent通过三个核心模块利用MLLM的强大功能:1)环境转换模块,从环境中提取多模态关键信息,构建鸟瞰图(BEV)地图和基于车道图的文本描述;2)推理引擎模块,通过层次化链式思维(CoT)进行多轮迭代推理,指导MLLM生成规划代码;3)反思模块,通过模拟和评分验证生成的规划,减少MLLM的不确定性对规划安全的影响。
➡️ 实验设计:PlanAgent在大规模且具有挑战性的nuPlan基准上进行了评估。实验设计了详细的消融研究,以验证每个模块的有效性。实验结果表明,PlanAgent在常见场景(Val14基准)和更具挑战性的长尾场景(Test14-hard基准)中均表现出色,优于现有的最先进方法。

LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback

➡️ 论文标题:LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback
➡️ 论文作者:Wen Lai, Mohsen Mesgar, Alexander Fraser
➡️ 研究机构: TUM, LMU Munich, Munich Center for Machine Learning, Bosch Center for Artificial Intelligence
➡️ 问题背景:尽管大型语言模型(LLMs)在多语言任务中取得了显著进展,但大多数LLMs主要以英语文本进行训练,仅支持有限数量的非英语语言。此外,这些模型尚未与人类偏好对齐,这对于LLMs在英语任务中的成功至关重要。因此,扩展LLMs的多语言能力,特别是支持低资源语言,成为当前研究的重要方向。
➡️ 研究动机:现有的多语言LLMs虽然在某些能力上表现出色,但它们支持的语言数量有限,且在低资源语言上的性能差异显著。此外,这些模型在与人类偏好对齐方面存在不足。为了解决这些问题,研究团队开发了xLLaMA-100和xBLOOM-100(统称为xLLMs-100),旨在扩展LLMs的多语言能力至100种语言,并通过多语言指令调优和跨语言人类反馈对齐,提升模型的理解和生成能力。
➡️ 方法简介:研究团队构建了两个数据集:一个包含100种语言的多语言指令数据集,另一个包含30种语言的跨语言人类反馈数据集。通过这些数据集,研究团队对LLMs进行了多语言指令调优,并使用DPO算法进一步对齐模型与人类偏好。此外,研究团队还评估了翻译指令和生成响应的质量,确保模型在不同语言上的表现。
➡️ 实验设计:研究团队在五个多语言基准数据集上评估了xLLMs-100的性能,包括理解任务(PAWS-X)、推理任务(XCOPA)、生成任务(FLORES-101和XL-Sum)以及专家编写任务(Self-Instruct*)。实验涵盖了高资源和低资源语言,以全面评估模型的多语言理解和生成能力。实验结果表明,xLLMs-100在所有基准测试中均显著优于其他模型,特别是在低资源语言上的表现尤为突出。

Parrot: Multilingual Visual Instruction Tuning

➡️ 论文标题:Parrot: Multilingual Visual Instruction Tuning
➡️ 论文作者:Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
➡️ 研究机构: 南京大学、阿里巴巴集团
➡️ 问题背景:多模态大语言模型(MLLMs)如GPT-4V的发展标志着向通用人工智能迈出的重要一步。然而,现有的方法主要通过监督微调(SFT)将视觉编码器与大语言模型(LLMs)对齐,以赋予LLMs多模态能力。这一过程导致了MLLMs处理多种语言的能力逐渐下降,尤其是在非英语语言中的表现显著下降。这主要是由于SFT数据集主要由以英语为中心的图像-文本对组成,导致视觉编码器和LLMs在多语言标记上的对齐不足。
➡️ 研究动机:研究团队发现,由于多语言数据的不平衡,MLLMs在非英语语言中的表现显著下降。为了增强MLLMs的多语言能力,研究团队提出了一种新的方法——PARROT,该方法利用文本引导来驱动视觉标记在语言层面的对齐,从而将视觉标记转换为语言特定的嵌入。
➡️ 方法简介:PARROT通过计算初始视觉特征和文本嵌入之间的交叉注意力,将结果输入到Mixture-of-Experts (MoE) 路由器中,选择最相关的专家,将初始视觉标记转换为语言特定的视觉标记。具体来说,PARROT首先通过视觉编码器提取视觉特征,并通过投影器将其转换为语言嵌入标记Hv。然后,通过交叉注意力机制将Hv与文本嵌入Ht对齐,生成语言特定的视觉特征H’v。最后,通过MoE模块将Hv转换为语言特定的视觉嵌入Gv。
➡️ 实验设计:研究团队在两个多语言基准数据集(MMBench和MMMB)上进行了实验,评估了PARROT在不同语言任务中的表现。MMMB包括6种语言(英语、中文、葡萄牙语、阿拉伯语、土耳其语和俄语),15个类别,共12,000个问题。实验结果表明,PARROT在多语言任务中表现出色,特别是在土耳其语和阿拉伯语中,性能超过了LLaVA-NeXT。此外,PARROT在多个多模态基准数据集(如MME、ScienceQA-IMG和SEED-Bench-IMG)上也表现出竞争力。

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

➡️ 论文标题:Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
➡️ 论文作者:Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou
➡️ 研究机构: National University of Singapore (Show Lab)、Microsoft Gen AI、Central South University
➡️ 问题背景:当前的多模态模型在处理长文本上下文时面临显著的GPU内存和计算成本挑战。例如,处理MMC4和OBELICS数据集中的5M和10M数据项时,即使仅处理256个文本令牌,OpenFlamingo-9B仍需32个80GB的A100 GPU运行超过三天。这突显了开发更高效的计算方法以有效处理长上下文文本的必要性。
➡️ 研究动机:为了应对上述挑战,研究团队提出了一种创新方法——Visualized In-Context Text Processing (VisInContext),该方法通过将长文本内容转换为图像,并利用视觉编码器提取文本表示,从而显著减少GPU内存使用和浮点运算(FLOPs),同时扩展模型的上下文文本长度。
➡️ 方法简介:VisInContext方法基于Flamingo架构,通过将部分上下文文本渲染成图像,然后使用视觉编码器处理这些图像,从而在不增加文本令牌长度的情况下扩展上下文文本长度。该方法包括文本渲染、Token Masking机制和Text-Centric Contrastive Learning (TCCL)等关键技术,以确保模型能够从渲染的文本图像中有效学习文本语义。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括Vision-Language Perception (VLP) 和 Image-to-Image (I2I) 任务。实验设计了不同的文本渲染参数(如字体大小、间隔阈值)和不同的任务设置(如文本仅上下文示例、文档理解任务、顺序多模态检索任务),以全面评估VisInContext方法的有效性和效率。实验结果表明,VisInContext不仅显著提高了模型在多模态下游任务中的性能,还大幅降低了计算成本,特别是在处理长文档时表现出色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/905446.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flutter - UIKit开发相关指南 - 线程和异步

线程和异步 编写异步代码 Dart采用单线程执行模型,支持Isolates(在另一个线程上运行Dart代码)、事件循环和异步编程。除非生成一个Isolates,否则Dart代码将在主UI线程中运行,并由事件循环驱动。Flutter的事件循环相当于iOS的主线程上的RunLoop。 Dart…

【愚公系列】《Manus极简入门》038-数字孪生设计师:“虚实映射师”

🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! &#x1f…

西门子WinCC Unified PC的GraphQL使用手册

TIA V20版本:添加用户 添加角色,并充分授权,尤其是GraphQL的读写权限。 通过SIMATIC Runtime Manager启动wincc unifi工程。 打开浏览器,访问本地的https://localhost/graphql/,运行正常如图: 连接外…

开源长期主义:浅谈DeepSeek技术主张与早期论文

开源、长期主义与DeepSeek的技术愿景 ©作者|格林 来源|神州问学 导入:Deepseek在早期就开源了许多优秀的指令模型与对话模型,并发布了多篇论文。以下,我们将基于Deepseek在早期发布的6篇论文,来梳理Deepseek公司的技术路径与…

TTS-Web-Vue系列:Vue3实现内嵌iframe文档显示功能

🖼️ 本文是TTS-Web-Vue系列的新篇章,重点介绍如何在Vue3项目中优雅地实现内嵌iframe功能,用于加载外部文档内容。通过Vue3的响应式系统和组件化设计,我们实现了一个功能完善、用户体验友好的文档嵌入方案,包括加载状态…

Elasticsearch索引设计与调优

一、分片策略设计 1.‌分片容量规划 单分片容量建议30GB(日志场景可放宽至100GB),避免超大分片引发查询延迟。分片总数计算公式:总数据量 / 30GB 1.2(20%余量应对未来增长)。主分片数创建后不可修改,副本分片数支持动态调整。2.‌分片分布优化 PUT logs-2025 { &qu…

Spring AI 集成 Mistral AI:构建高效多语言对话助手的实战指南

Spring AI 集成 Mistral AI:构建高效多语言对话助手的实战指南 前言 在人工智能应用开发领域,选择合适的大语言模型(LLM)与开发框架至关重要。Mistral AI 凭借其高效的多语言模型(如 Mistral-7B、Mixtral-8x7B 等&am…

从新手到高手:全面解析 AI 时代的「魔法咒语」——Prompt

引言:AI 时代的「语言炼金术」 在人工智能技术突飞猛进的今天,我们正在经历一场堪比工业革命的生产力变革。从聊天机器人到图像生成,从数据分析到自动化写作,AI 模型正在重塑人类与信息交互的方式。而在这一切背后,隐…

MySQL 8.0安装(压缩包方式)

MySQL 8.0安装(压缩包方式) 下载安装包并解压 下载 https://dev.mysql.com/downloads/mysql/可关注“后端码匠”回复“MySQL8”关键字获取 解压(我解压到D:\dev\mysql-8.4.5-winx64目录下) 创建mysql服务 注意,这步之前一定要保证自己电…

免费Ollama大模型集成系统——Golang

Ollama Free V2 Web 功能实现:界面交互与后端逻辑 一、Web 界面概述 Ollama Free V2 的 Web 界面提供了丰富的交互功能,包括模型选择、图片上传、历史记录查看等。界面使用 Bootstrap 进行布局,结合 JavaScript 实现动态交互。 二、前端界…

【AI】人工智能数据标注细分和商业机会

一、数据标注的常见方法 数据标注是为人工智能模型训练提供高质量标签的过程,根据数据类型(图像、文本、音频、视频等)的不同,标注方法也有所差异: 1. 图像标注 分类标注:为图像分配类别标签&#xff08…

lanqiaoOJ 652:一步之遥 ← 扩展欧几里得定理

【题目来源】 https://www.lanqiao.cn/problems/652/learning/ 【题目背景】 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 【题目描述】 从昏迷中醒来,小明发现自己被关在X星球的废矿车里。矿车停在平直的废弃…

HTTP / HTTPS 协议

目录 一、前言: 二、Fiddler 抓包工具: 三、http 协议: 1、http 请求: 1.(1)请求行: 1、(2) 请求头: 1、(3) 请求正文: 2、http 响应: 2、(1) 状态码&#x…

使用泛型加载保存数据

文章速览 泛型泛型概述定义优点 实例加载数据保存数据 一个赞,专属于你的足迹! 泛型 泛型概述 泛型(Generics)是 C# 中一种重要的编程特性,它允许程序员编写灵活且类型安全的代码。通过使用泛型,可以创建…

Redis内存淘汰策略和过期键删除策略有哪些?

Redis 提供 8 种内存淘汰策略,以下是详细解析及场景建议: 一、核心策略解析 noeviction (默认策略) 机制:内存满时拒绝新写入操作,返回错误优势:绝对数据安全场景:金融交易系统、医疗数据存储 allkeys-lr…

【C/C++】自定义类型:结构体

文章目录 前言自定义类型:结构体1.结构体类型的声明1.1 结构体回顾1.1.1 结构的声明 1.1.2 结构体变量的创建和初始化1.2 结构的特殊声明1.3 结构的自引用 2.结构体内存对齐2.1 对⻬规则2.2 为什么存在内存对齐?2.3 修改默认对⻬数 3. 结构体传参4.结构体…

PPO算法:一种先进的强化学习策略

什么是PPO算法? PPO(Proximal Policy Optimization)是一种增强学习算法,主要应用于解决连续控制任务。PPO算法在2017年由OpenAI提出,旨在解决传统策略梯度方法在连续控制任务中面临的挑战。PPO算法通过引入一个近似目…

OpenCV实现数字水印的相关函数和示例代码

OpenCV计算机视觉开发实践:基于Qt C - 商品搜索 - 京东 实现数字水印的相关函数 用OpenCV来实现数字水印功能,需要使用一些位操作函数,我们需要先了解一下这些函数。 1. bitwise_and函数 bitwise_and函数是OpenCV中的位运算函数之一&…

基于Python的计算机科学研究话题管理系统的设计与实现 - 爬虫

标题:基于Python的计算机科学研究话题管理系统的设计与实现 - 爬虫 内容:1.摘要 本文聚焦于基于Python的计算机科学研究话题管理系统的爬虫部分。背景是随着计算机科学研究的快速发展,相关话题数据海量且分散,人工管理效率低。目的是设计并实现一个能高…

告别手动解析!借助 CodeBuddy 快速开发网页源码提取工具

作为一名长期从事 Web 开发的程序员,我们在日常工作中,时不时会需要查看网页的源代码。这么做的目的通常是为了排查前端渲染的问题、分析接口返回的数据结构,或者就是单纯地想快速提取页面中的某些信息,比如文章链接、图片地址&am…