多模态大语言模型arxiv论文略读(七十九)

在这里插入图片描述

AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning

➡️ 论文标题:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
➡️ 论文作者:Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:上下文学习(In-context Learning, ICL)在大规模语言模型(LLMs)中展现了显著的能力,无需更新数十亿参数即可在未见过的数据上获得理想性能。然而,在多模态大规模语言模型(MLLMs)中,ICL的应用面临两个主要问题:(1) 大多数主要的MLLMs仅在单图像数据集上训练,无法处理额外的多模态演示;(2) 随着演示数量的增加,数千个视觉标记对硬件资源造成巨大挑战,并降低ICL性能。
➡️ 研究动机:研究团队发现,MLLMs在生成过程中更关注语言模态,而非视觉模态。基于这一发现,研究团队提出了一种新的框架AIM,通过将多模态演示中的图像信息聚合到文本的潜在空间中,减少视觉标记的数量,从而提高MLLMs在多模态ICL中的效率和性能。
➡️ 方法简介:AIM框架通过将多模态演示中的图像信息聚合到文本的潜在空间中,生成融合的虚拟标记,以替代原始的图像-文本对。这些融合的虚拟标记与文本长度相同,从而显著减少了演示的长度。AIM可以在不改变查询图像和文本的情况下,将多图像提示近似转换为包含单个查询图像的提示,从而提高模型的性能。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括图像描述(Image Caption)、视觉问答(VQA)和仇恨言论检测(Hateful Speech Detection)。实验设计了不同因素(如图像数量、图像分辨率和文本长度)的变化,以及不同类型的评估任务(如开放性问题和封闭性问题),以全面评估AIM在多模态ICL中的表现。实验结果表明,AIM在减少内存使用和提高推理吞吐量方面表现出色,同时在多个任务上取得了与基础模型相当或更好的性能。

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

➡️ 论文标题:MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
➡️ 论文作者:Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
➡️ 研究机构: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景:随着大规模语言模型(LLMs)的快速发展,多模态大规模语言模型(MLLMs)在多种任务中展现了卓越的能力。然而,MLLMs在实际应用中面临复杂的场景,容易受到潜在的恶意指令的影响,从而带来安全风险。现有的评估基准虽然包含了一定的安全考虑,但往往缺乏全面性和严谨性,例如使用GPT-4V同时作为评估者和被评估模型,存在自我偏见的问题。
➡️ 研究动机:为了应对MLLMs在安全评估方面的不足,研究团队开发了MLLMGUARD,一个多维度的安全评估套件,旨在为MLLMs提供全面的安全评估。MLLMGUARD不仅涵盖了隐私、偏见、毒性、真实性和合法性五个重要安全维度,还通过引入对抗性样本和高质量的人工标注,提高了评估的挑战性和准确性。
➡️ 方法简介:MLLMGUARD包括一个双语(英语和中文)图像-文本评估数据集、推理工具和一个轻量级评估器。数据集主要来源于社交媒体,通过红队技术(Red Teaming Techniques)和人工标注,确保数据的多样性和挑战性。轻量级评估器GUARDRANK通过预训练语言模型(如LLaMA-2和Roberta-large)进行微调,实现了对MLLMs的自动化评估,显著提高了评估的准确性和效率。
➡️ 实验设计:研究团队在13个先进的MLLMs上进行了评估,包括2个闭源模型和11个开源模型。评估涵盖了隐私、偏见、毒性、真实性和合法性五个维度,每个维度下设多个子任务。实验结果表明,尽管GPT-4V在多个维度上表现最佳,但MiniGPT-v2在某些方面(如真实性和合法性)的表现更为出色。此外,GUARDRANK在评估准确性上显著优于GPT-4,证明了其在多模态模型安全评估中的有效性和可靠性。

Grounding Multimodal Large Language Models in Actions

➡️ 论文标题:Grounding Multimodal Large Language Models in Actions
➡️ 论文作者:Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
➡️ 研究机构: Apple, Georgia Tech, Mila
➡️ 问题背景:多模态大语言模型(MLLMs)在多个领域展示了广泛的能力,尤其是在具身AI中。然而,这些模型在具身任务中的能力受限于其输出空间(自然语言)与具身代理的动作空间之间的差距,特别是在连续动作空间中,低级控制器可能需要高度的精度。
➡️ 研究动机:为了克服MLLMs在具身任务中的局限性,研究团队通过系统的方法研究了如何将MLLMs有效地与不同的具身体现及其动作空间结合,旨在提高模型在具身任务中的性能。
➡️ 方法简介:研究团队提出了一种统一的架构,通过动作空间适配器(Action Space Adapters, ASAs)来重新参数化MLLMs的输出,使其能够生成动作。研究包括了连续动作空间和离散动作空间的ASAs,通过学习的分词策略和语义对齐策略来优化模型的性能。
➡️ 实验设计:研究在五个不同的具身AI环境中进行了实验,包括三个机器人连续控制环境和两个离散动作环境,涵盖了114个具身任务。实验评估了不同ASAs在任务成功率、RL样本效率等方面的表现,结果表明,对于连续动作空间,学习的分词策略(Residual VQ)表现最佳;对于离散动作空间,语义对齐策略(Semantic Tokenization)表现最佳。

Multimodal Table Understanding

➡️ 论文标题:Multimodal Table Understanding
➡️ 论文作者:Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院、百度公司、北京师范大学人工智能学院
➡️ 问题背景:尽管基于大型语言模型(LLMs)的表格理解方法取得了显著进展,但这些方法通常依赖于将表格转换为特定的文本序列(如Markdown或HTML)作为模型输入。然而,在某些现实场景中,获取高质量的文本表格表示形式非常困难,而表格图像则更为常见。因此,如何直接利用直观的视觉信息来理解表格,成为开发更实用应用的关键和紧迫挑战。
➡️ 研究动机:现有的表格理解方法,包括基于LLMs的方法,大多只能处理有限的任务,且需要将表格转换为文本序列。这限制了表格理解技术在实际场景中的应用。为了克服这一限制,研究团队提出了多模态表格理解问题,旨在使模型能够基于表格图像直接生成正确的响应,以应对各种表格相关请求。
➡️ 方法简介:研究团队构建了一个大规模的数据集MMTab,涵盖了广泛的表格图像、指令和任务。基于此数据集,研究团队开发了一个通用的多模态大型语言模型(MLLM)Table-LLaVA,该模型在23个基准测试中显著优于最近的开源MLLM基线模型。
➡️ 实验设计:实验在三个公开数据集上进行,包括多模态表格理解任务。实验设计了不同因素(如表格结构、样式和领域)的变化,以及不同类型的任务(如表格问答、表格事实验证和表格到文本生成),以全面评估模型的多模态表格理解能力。

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

➡️ 论文标题:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
➡️ 论文作者:Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种视觉-语言任务中表现出色,但其输出主要局限于文本形式,限制了其在结构化或视觉信息表示上的能力。此外,现有的扩展MLLM输出格式的方法未能完全满足实际需求,如密集对象检测、姿态估计和图像生成等任务。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队开发了VisionLLM v2,这是一个端到端的通用多模态大模型,旨在统一视觉感知、理解和生成任务。该模型不仅扩展了MLLMs的应用范围,还通过引入“超级链接”技术,实现了任务信息和梯度反馈在多任务解码器之间的高效传输,避免了任务冲突。
➡️ 方法简介:VisionLLM v2通过引入“超级链接”技术,将MLLM与特定任务解码器连接起来。该技术包括路由令牌(Routing Token)和超级链接查询(Super-Link Queries)两部分。路由令牌用于触发特定解码器的选择,而超级链接查询则作为MLLM与任务解码器之间的桥梁,确保任务信息的准确传输和梯度反馈。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,涵盖了从视觉感知到视觉理解的各种任务,包括弱交互(如封闭集任务)和强交互(如视觉提示+语言提示)任务,以及常见领域和长尾领域(如医疗、遥感、工业)的任务。实验结果表明,VisionLLM v2在各种标准基准测试中达到了与任务专用模型相当的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Harmony]封装一个可视化的数据持久化工具

1.添加权限 在module.json5文件中添加权限 // 声明应用需要请求的权限列表 "requestPermissions": [{"name": "ohos.permission.DISTRIBUTED_DATASYNC", // 权限名称:分布式数据同步权限"reason": "$string:distrib…

利用html制作简历网页和求职信息网页

前言 大家好,我是maybe。今天下午初步学习了html的基础知识。做了两个小网页,一个网页是简历网页,一个网页是求职信息填写网页。跟大家分享一波~ 说明:我不打算上传图片。所以如果有朋友按照我的代码运行网页,会出现一个没有图片…

Vue 3 实现后端 Excel 文件流导出功能(Blob 下载详解)

💡 本文以告警信息导出为例,介绍 Vue 3 中如何通过 Axios 调用后端接口并处理文件流,实现 Excel 自动下载功能。 📑 目录 一、前言 二、后端接口说明 三、前端实现思路 四、导出功能完整代码 五、常见问题处理 六、效果展示 …

HarmonyOS AVPlayer 音频播放器

鸿蒙文档中心:使用AVPlayer播放视频(ArkTS)文档中心https://developer.huawei.com/consumer/cn/doc/harmonyos-guides/video-playback 这张图描述的是 HarmonyOS AVPlayer 音频播放器的状态流转过程,展示了 AVPlayer 在不同状态之间的切换条件和关键操作…

Java面试场景:从音视频到AI应用的技术探讨

面试场景:音视频与AI应用技术的碰撞 在某互联网大厂的面试中,面试官王先生与求职者明哥展开了一场关于音视频技术与AI应用的对话。 第一轮提问:音视频场景 面试官:明哥,你能谈谈在音视频场景中,Spring B…

【深度学习】残差网络(ResNet)

如果按照李沐老师书上来,学完 VGG 后还有 NiN 和 GoogLeNet 要学,但是这两个我之前听都没听过,而且我看到我导师有发过 ResNet 相关的论文,就想跳过它们直接看后面的内容。 现在看来这不算是不踏实,因为李沐老师说如果…

Vue3学习(组合式API——父、子组件间通信详解)

目录 一、组合式API下的父组件传子组件。(自定义属性) (1)基本思想。 (2)核心注意点。(defineProps) (3)传递简单类型数据。 (4)传递对象类型数据。(v-bind"对象类型数据"…

W5500使用ioLibrary库创建TCP客户端

1、WIZnet全硬件TCP/IP协议栈 WIZnet全硬件TCP/IP协议栈,支持TCP,UDP,IPv4,ICMP,ARP,IGMP以及PPPoE协议。 以太网:支持BSD和WIZCHIP(W5500/W5300/W5200/W5100/W5100S)的SOCKET APIs驱动程序。 互联网: DHCP客户端 DNS客户端 FTP客…

管理Oracle Data Guard的最佳实践

Oracle Data Guard的中文名字叫数据卫士,顾名思义,它是生产库的一道保障。所以管理Data Guard是DBA的一项重要工作之一,管理Data Guard时主要有以下几个注意点需要引起重视。 备份库的归档日志积压 一般情况下,生产库的归档日志是…

BootCDN介绍(Bootstrap主导的前端开源项目免费CDN加速服务)

文章目录 BootCDN前端开源项目CDN加速服务全解析什么是BootCDN技术原理与架构CDN技术基础BootCDN架构特点1. 全球分布式节点网络2. 智能DNS解析系统3. 高效缓存管理机制4. 自动同步更新机制5. HTTPS和HTTP/2协议支持 BootCDN的核心优势速度与稳定性开源免费资源丰富度技术规范遵…

2025 Java 微信小程序根据code获取openid,二次code获取手机号【工具类】拿来就用

一、controller调用 /*** 登录** author jiaketao* since 2024-04-10*/ RestController RequestMapping("/login") public class LoginController {/*** 【小程序】登录获取session_key和openid** param code 前端传code* return*/GetMapping("/getWXSessionKe…

软件架构风格系列(3):管道 - 过滤器架构

文章目录 前言一、从生活场景到架构原理,看懂管道 - 过滤器的核心逻辑(一)什么是管道 - 过滤器架构?(二)核心组件拆解 二、架构设计图:一图看懂管道 - 过滤器架构全貌三、Java 示例代码&#xf…

【VIM】vim 常用命令

文章目录 插入模式光标移动拷贝/粘贴/删除/撤销块操作分屏代码缩进命令组合使用其他PowerVim 前言:本文内容大部分摘抄自酷壳和博客园   –   CoolShell – 陈皓   博客园 – 易先讯 插入模式 a → 在光标后插入o → 在当前行后插入一个新行O → 在当前行前插…

polarctf-web-[简单rce]

考点&#xff1a; (1)RCE(eval函数) (2)执行函数(passthru函数) (3)/顶级(根)目录查看 (4)sort排序查看函数 题目来源&#xff1a;Polarctf-web-[简单rce] 解题&#xff1a; 代码审计 <?php/*​PolarD&N CTF​*/highlight_file(__FILE__);function no($txt){ # …

HarmonyOs开发之———使用HTTP访问网络资源

谢谢关注&#xff01;&#xff01; 前言&#xff1a;上一篇文章主要介绍HarmonyOs开发之———Video组件的使用:HarmonyOs开发之———Video组件的使用_华为 video标签查看-CSDN博客 HarmonyOS 网络开发入门&#xff1a;使用 HTTP 访问网络资源 HarmonyOS 作为新一代智能终端…

Vue 图片预览功能(含缩略图)

众所周知&#xff0c;常见的组件库如Element、Ant Design&#xff0c;自带的图片预览功能都没有缩略图&#xff0c;所以 需要单独封装一个图片预览的服务。 第三方库&#xff1a;v-viewer 安装&#xff1a; npm install v-viewer viewerjs 若使用报错&#xff0c;可安装指定…

手写tomcat:基本功能实现(4)

逻辑架构 HTTP 请求与 Socket&#xff1a; 左侧的 “HTTP 请求” 箭头指向 “socket”&#xff0c;表示客户端发送的 HTTP 请求通过 socket 传输到服务器。Socket 负责接收请求&#xff0c;并提取出其中的 请求路径&#xff08;如 /first&#xff09;和 请求方法&#xff08;如…

jvm安全点(一)openjdk17 c++源码垃圾回收安全点信号函数处理线程阻塞

1. 信号处理入口​​ ​​JVM_HANDLE_XXX_SIGNAL​​ 是 JVM 处理信号的统一入口&#xff0c;负责处理 SIGSEGV、SIGBUS 等信号。​​javaSignalHandler​​ 是实际注册到操作系统的信号处理函数&#xff0c;直接调用 JVM_HANDLE_XXX_SIGNAL。 ​​2. 安全点轮询页的识别​​ …

微信小程序:封装表格组件并引用

一、效果 封装表格组件,在父页面中展示表格组件并显示数据 二、表格组件 1、创建页面 创建一个components文件夹,专门用于存储组件的文件夹 创建Table表格组件 2、视图层 (1)表头数据 这里会从父组件中传递表头数据,这里为columns,后续会讲解数据由来 循环表头数组,…

【FMC216】基于 VITA57.1 的 2 路 TLK2711 发送、2 路 TLK2711 接收 FMC 子卡模块

产品概述 FMC216 是一款基于 VITA57.1 标准规范的 2 路 TLK2711 接收、2 路 TLK2711 发送 FMC 子卡模块。该板卡支持 2 路 TLK2711 数据的收发&#xff0c;支持线速率 1.6Gbps&#xff0c;经过 TLK2711 高速串行收发器&#xff0c;可以将 1.6Gbps 的高速串行数据解串为 16 位并…